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PREFACE 


图 灵 奖 获得 者 吉姆 .格雷 (Jim Gray) 在 其 获奖 演说 中 指出 : 由 于 互联 网 的 发 展 ,未 来 
18 个 月 新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 从 预言 至 今 ,数据 量 的 增长 基本 符合 这 
个 定律 。 

人 类 社会 产生 的 数据 信息 一 方面 来 自 于 互联 网 ; 一 方面 来 自 于 日 常生 产 、 生 活 及 各 种 
科学 试验 ,例如 科学 计算 和 仿真 、 飞 行动 力学 、 核 爆炸 仿真 、 太 空 探测 及 医学 影像 等 每 天 所 产 
生 的 数据 量 更 是 大 到 惊人 的 程度 。 

根据 易 观 智库 发 布 的 (中 国 大 数据 市 场 年 度 综合 报告 2016) 中 数据 显示 ,2015 年 中 国 大 
数据 市 场 规模 达到 105. 5 亿 元 ,同比 增长 39. 4% ,预计 未 来 3 一 4 年 ,市 场 规模 增长 率 将 保 
持 在 30% 以 上 。 

云 存储 作为 大 数据 时 代 的 存储 基础 设施 ,其 重要 性 不 言 而 喻 ,特别 是 物 联网 技术 的 高 速 
发 展 ,其 后 的 支撑 平台 也 有 束 于 云 存储 技术 。 在 已 经 实现 的 云 存储 服务 中 ,数据 安全 和 隐私 
保护 问题 一 直 令 人 担忧 ,并 已 经 成 为 阻碍 云 存储 发 展 和 推广 的 主要 因素 之 一 。 从 现实 情况 
Ti , 云 存储 数据 安全 问题 层出不穷 。 

2014 年 9 月 ,黑客 利用 苹果 iCloud 云端 系统 的 漏洞 将 其 数据 外 泄 ; 2015 年 4 月 ,上 海 、 
重庆 等 超 30 个 省 市 约 5000 万 用 户 社保 信息 被 泄露 ; 2016 年 4 月 ,土耳其 方面 爆发 重大 数 
据 泄露 事件 ,导致 近 5000 万 土耳其 公民 的 个 人 信息 遭 到 威胁 ; 2017 年 2 月 ,知名 云 安全 服 
务 商 Cloudflare 被 曝 泄 露 用 户 HTTPS 网 络 会 话 中 的 加 密 数据 长 达 数 月 ; 2018 年 1 月 , 印 
JE 10 亿 公 民 身 份 数据 库 Aadhaar 被 曝 遭 到 网 络 攻击 ,除了 名 字 .电话 号 码 .邮箱 地 址 等 信息 
之 外 ,指纹 .虹膜 记录 等 极度 敏感 的 信息 均 遭 到 泄露 …… 各 类 安全 事故 不 胜 枚 举 。 

为 了 推进 云 存 储 技术 的 快速 发 展 与 普及 ,本 书 全 面 . 系 统 地 介绍 了 云 存储 安全 的 发 展 历 
程 和 最 新 研究 成 果 。 

在 信息 安全 的 三 要 素 (CIA 三 元 组 ) 一 一 机 密 性 (Confidentiality) ,完整 性 (Integrality)、 
可 用 性 (Availability) 的 基础 上 ,作者 认为 应 加 入 访问 控制 (Access Control) ,将 CIA 延伸 到 
CIAA, 此 四 方面 被 认为 是 保障 云 存储 安全 的 核心 技术 。 因 此 ,本 书 将 围绕 此 四 方面 及 其 衍 
生 的 其 他 问题 展开 讨论 ,全 书 共 分 为 9 章 。 第 1 章 对 云 存 储 进行 概述 ,介绍 云 存储 的 兴起 与 
存储 安全 面临 的 挑战 ; 第 2 章 建 立 云 存 储 安全 体系 结构 ,围绕 云 存储 系统 安全 体系 结构 说 
明 本 书 的 研究 内 容 ; 第 3 章 介 绍 云 存 储 虚拟 化 安全 ; 第 4 章 介 绍 云 存储 系统 身份 认证 与 访 
问 控制 ; 第 5 章 介绍 加 密云 存储 系统 ; 第 6 章 介绍 密 文 云 存 储 信 息 检索 ; 第 7 章 介绍 云 存 


I 4| 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


储 服务 的 数据 完整 性 审计 ; 第 8 章 介 绍 云 存储 数据 备份 与 恢复 ; 第 9 章 详细 阐述 大 数据 时 
代 的 云 存储 安全 。 

本 书 主要 针对 已 有 一 定 信息 安全 相关 基础 知识 的 读者 ,比如 知道 密码 技术 ,能 区 分 对 称 
密码 与 公 钥 密码 ,知道 当前 使 用 的 对 称 密码 标准 是 什么 以 及 常用 的 公 钥 密码 技术 ; 知道 
Hash 算法 .消息 认证 码 (Message Authentication Code. MAC) 等 相关 基础 知识 。 关 于 密码 
技术 的 书籍 和 资料 非常 丰富 ,本 书 没有 再 介绍 相关 理论 知识 。 

本 书 取 材 新 颖 ,结构 合理 ,不 仅 包括 云 存 储 安 全 技术 的 基础 理论 ,而 且 涵 盖 了 云 存 储 安 
全 技术 的 最 新 研究 成 果 ,力求 使 读者 通过 本 书 的 学 习 了 解 本 学 科 最 新 的 发 展 方向 。 本 书 适 
合作 为 高 等 院 校 信息 安全 、 网 络 空 间 安全 .信息 存储 ,计算 机 科学 与 技术 、 密 码 学 与 信息 对 抗 
等 相关 专业 的 本 科 生 和 研究 生 教材 ,也 可 作为 通信 工程 师 和 计算 机 网 络 工程 师 的 参考 读物 。 

因为 本 书 内 容 涉猎 广泛 ,所 以 难免 存在 一 些 朴 漏 或 考虑 不 周全 .引用 不 全 之 处 ,但 作者 
绝对 是 本 着 讲授 本 领域 最 新 研究 成 果 的 想法 , 尽 可 能 地 介绍 本 书 各 部 分 内 容 的 精华 或 卓越 
观点 ,通过 通俗 易 懂 、 深 入 浅 出 的 讲解 , 既 可 以 实现 传播 知识 的 科普 目标 ,也 可 将 其 作为 “ 引 
子 ” 为 入 门 者 抛砖引玉 ,以 实现 登 党 入 室 之 目的 。 因 本 人 知识 见闻 有 限 , 难 免 有 “ 趋 熟 避 生 ” 
之 嫌 , 再 或 者 “ 词 不 达意 ”“ 言 不 尽 意 ”, 让 读者 产生 误解 。 希 望 读者 能 够 谅解 ,并 在 方便 之 时 
让 我 知晓 ,使 我 有 机 会 给 予 解释 ,同时 交流 学 习 , 以 待 以 后 有 机 会 更 正 。 

非常 希望 此 书 能 够 做 到 开卷 有 益 ! 


作者 
2019 年 5 月 
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《三 国 演 义 》 第 一 回 :“ 话 说 天 下 大 势 , 分 久 必 合 , 合 久 必 分 …… ”。 数 据 存储 系统 也 不 例 
外 ,从 传统 分 散 式 存储 系统 ,发展 到 集中 式 存储 ,然后 发 展 到 现在 的 集中 式 云 存 储 , 又 往 分 布 
式 云 存储 系统 方向 发 展 …… 

云 存 储 (Cloud Storage) 是 在 云 计算 (Cloud Computing) 概 念 上 延伸 和 发 展 起 来 的 ,是 
指 通过 集群 应 用 、 网 格 技术 和 分 布 式 文件 系统 等 功能 ,将 网 络 中 大 量 不 同类 型 的 存储 设备 通 
过 虚拟 化 软件 集合 起 来 协同 工作 ,实现 共同 对 外 提供 数据 存储 和 业务 访问 功能 。 当 云 计 算 
系统 处 理 的 核心 是 大 量 数据 的 存储 和 管理 时 , 云 计算 系统 就 需要 配置 大 量 的 存储 设备 ,那么 
云 计 算 系 统 就 转变 成 云 存储 系统 ,所 以 云 存储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计 算 
系统 。 

本 章 将 从 云 存储 的 兴起 讲 起 ,详细 介绍 云 存 储 的 发 展现 状 与 趋势 ,然后 详细 说 明 为 什么 
会 存在 安全 问题 ,具体 有 哪些 安全 威胁 ,又 有 哪些 需要 解决 的 问题 ,解决 了 这 些 问题 仍然 面 
临 怎样 的 挑战 。 

本 章 是 为 后 续 章节 作 一 个 铺垫 。 通 过 本 章 的 介绍 ,用 户 可 以 了 解 到 云 存 储 安全 技术 要 
解决 的 问题 ; 具体 研究 范围 ,后 续 章 节 将 一 一 展开 讨论 。 


1.1 云 存 储 的 兴起 


云 存 储 的 兴起 可 以 从 一 个 趣闻 说 起 。 全 球 最 大 网 上 书店 亚马逊 (Amazon, www. 
amazon. com) 是 一 个 电子 商务 平台 ,早期 的 网 络 服务 平台 Obidos 采用 C++ 语言 编写 ,编译 
后 的 代码 大 小 为 700MB ,编译 一 次 需要 一 天 时 间 ,使 加 入 新 功能 变 得 越 来 越 困 难 。 后 来 ,他 
们 设计 并 实现 了 一 个 新 的 服务 平台 Gurupa, 采 用 基于 Perl 语言 的 Mason Bi fi Je ,把 所 有 功 
能 以 微服 务 的 形式 集成 起 来 ,但 是 性 能 不 好 。 为 了 应 对 圣诞 节 的 流量 高 峰 期 ,亚马逊 购买 了 
大 量 服务 器 和 Cisco 交换 机 ,用 以 实现 负载 均衡 ,以 满足 流量 高 峰 时 对 性 能 扩展 的 需求 。 但 
是 ,节日 过 后 的 淡季 ,又 不 得 不 面临 大 量 机 器 空闲 的 状况 。 为 了 不 让 资源 闲置 ,亚马逊 就 把 
这 些 机 器 配置 成 服务 来 租赁 ,这 就 是 最 初 的 云 计 算 的 锥 形 。 

利用 已 有 的 IT 基础 设施 一 一 硬件 设备 .服务 器 与 交换 机 ,组 合 配置 成 集 计 算 、 存 储 与 
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网 络 于 一 体 的 资源 池 ,一 方面 可 为 电子 商务 平台 提供 各 类 IT 服务 ,满足 各 种 负载 的 需求 ; 
另 一 方面 还 可 将 闲置 的 资源 分 解 成 一 个 个 小 单元 用 于 租 售 ,实现 成 本 的 分 摊 。 正 是 看 到 了 
这 一 点 ,亚马逊 利用 虚拟 化 技术 一 一 云 计 算 与 云 存 储 的 核心 技术 ,将 闲置 的 IT 资源 进行 分 
解 ,在 其 上 构建 了 亚马逊 网 络 服务 系统 (Amazon Web Services. AWS), 2002 年 7 月 , 亚 马 
逊 利用 其 分 布 在 全 球 各 地 的 数据 中 心 ,推出 面向 第 三 方 的 云 计 算 服 务 AWS, 主 要 包括 数据 
库 服务 、 处 理 器 资源 租赁 、 网 络 存 储 、 应 用 软件 服务 等 。AWS 的 迅速 成 长 让 其 成 为 亚马逊 
的 一 项 非常 成 功 的 新 业务 。 

亚马逊 的 创始 人 Jeff Bezos 在 一 次 采访 中 说 过 : 亚马逊 作为 电子 商务 公司 ,起 初 为 了 处 
理 大 量 的 货品 库存 和 分 配 ,积累 并 完善 了 他 们 的 大 数据 计算 技术 。 目 前 ,亚马逊 提供 的 服务 
包括 : 亚马逊 弹性 计算 云 (Amazon Elastic Compute Cloud. EC2)、 亚 马 逊 简单 存储 服务 
(Amazon Simple Storage Service,S3) , E ith Web 服务 (Amazon Web Services) .亚马逊 简 
单数 据 库 (Amazon SimpleDB) 亚马逊 简单 队列 服务 (Amazon Simple Queue Service) 以 及 
亚马逊 内 容 分 发 网 络 (Amazon CloudFront) 等 。 

回顾 历史 ,任何 事物 的 发 展 都 存在 一 定 的 偶然 性 和 必然 性 。 在 Brad Stone 于 2013 年 
撰写 的 关于 亚马逊 历史 最 权威 的 The Everything Store: Jeff Bezos and the Age of 
AmaxozD 一 书 中 ,可 以 归纳 出 影响 亚马逊 发 展 的 历史 必然 性 的 几 个 因素 中 。 

亚马逊 的 核心 业务 一 一 电子 商务 有 很 强 的 季节 性 。2002 一 2003 年 ,公司 发 展 进 入 了 瓶 
颈 期 ,如 何 有 效 配置 兼顾 扩展 性 与 持续 性 的 基础 服务 平台 成 为 一 个 亚 待 解决 的 问题 。 而 这 
个 问题 ,在 当时 只 有 亚马逊 才 存 在 ,其 他 公司 如 谷歌 (Google) 当 时 的 营利 模式 主要 是 投放 广 
告 业务 ,所 以 亚马逊 具备 开发 去 计算 服务 所 需要 的 发 展 动力 和 生存 压力 。 

2002 年 ,Tim O'ReillyCO'Reilly Media 出 版 公司 的 创始 人 ) 拜 访 Bezos, 希 望 与 亚马逊 
合作 。 合 作 没 谈 成 ,但 O'Reilly 的 提议 让 Bezos 意识 到 亚马逊 的 数据 可 以 开放 给 第 三 方程 
序 员 使 用 ,于 是 他 组 织 了 第 一 届 亚 马 逊 开发 者 大 会 ,提出 所 有 互 操作 要 以 API(Application 
Programming Interface, 应 用 编程 接口 ) 的 方式 提供 数据 和 各 种 功能 ,而 且 API 可 以 对 外 部 
人 员 开 放 ,AWS 就 是 API 化 的 服务 平台 ,这 种 方式 为 后 面 的 系统 扩展 性 打下 了 良好 的 
基础 。 

Bezos “IX EIB (Creation: Life and How to Make It) (2001 年 出 版 ) 非 常 着 迷 ， 
并 且 让 公司 高 管 人 手 一 册 。 此 书 作者 Steve Grand 无 意 中 给 亚马逊 高 管 指出 了 一 条 解决 IT 
资源 配置 的 思路 : 把 IT 基础 设施 分 成 一 个 个 小 单元 ,让 程序 员 可 以 自由 配置 与 使 用 。 因 
此 ,Bezos 马上 组 建 研 发 团队 来 研究 开发 这 样 的 小 单元 ,这 便 是 虚拟 化 思想 的 启蒙 。 

2004 年 ,亚马逊 负责 IT 基础 设施 配置 的 Chris Pinkham 希望 回 到 老家 南非 。 为 了 挽 
留 他 ,亚马逊 就 在 好 望 角 设置 了 一 个 办 公 室 ,让 Pinkham 可 以 远程 办 公 。 为 了 能 跟 西雅图 
的 总 部 一 直 保 持 连 线 , Pinkham 带领 一 个 程序 员 Chris Brown 开发 了 最 早 版 本 的 EC2 
和 S3 。 

2006 年 ,亚马逊 的 董事 会 和 硅谷 风 投 并 不 看 好 AWS, 因 为 这 看 起 来 跟 电子 商务 的 主 营 
业务 完全 没有 关系 ,而 且 那 时 电子 商务 的 主要 产品 书籍 一 直 在 亏 钱 。 按 照 董事 会 正常 
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的 商业 逻辑 ,会 否决 上 线 AWS 这 样 疯狂 而 大 胆 的 新 产品 ,但 是 在 亚马逊 的 董事 会 上 Bezos 
拥有 极 强 的 影响 力 ; 而 且 当 时 他 已 经 成 功 地 运营 了 极 具 前 瞻 性 的 众 包 产品 土耳其 机 器 人 
(Amazon Mechanical Turks) ,向 董事 会 证 明 亚马逊 可 以 走出 主 营 业务 ,开发 出 成 功 的 新 产 
品 。 这 些 因素 使 得 Bezos 可 以 说 服 董事 会 ,继续 发 展 AWS, 

最 后 也 是 最 重要 的 一 个 因素 是 ,Bezos 一 直 坚 信 亚 马 逊 的 价值 在 于 提供 近似 于 水 电 的 
基础 设施 服务 ,这 样 才 可 以 更 好 地 服务 于 用 户 。 他 认为 成 本 应 该 越 低 越 好 ,这 与 Steve Jobs 
的 商业 逻辑 刚好 相反 : Jobs 是 高 价 十 小 量 十 超额 利润 ,而 Bezos 是 超 低 价 十 巨 量 十 微薄 利 
润 。 在 这 样 的 思想 指导 下 ,AWS 一 开始 的 价格 非常 低 ,因为 Bezos 没准 备 在 短期 内 型 利 , 而 
且 他 刻意 压低 价格 ,不 想 引 起 潜在 竞争 对 手 的 注意 。 而 Google 的 主 营业 务 一 一 广告 的 利润 
非常 高 ,在 当时 既 没有 压力 也 没有 动力 ,更 加 没有 说 得 过 去 的 理由 来 介入 一 个 看 起 来 根本 不 
赚钱 的 生意 。Google 的 Eric Schmidt 说 : 他 在 两 年 里 ,发 现 很 多 新 兴 公 司 都 在 用 同一 家 公 
司 一 一 亚马逊 的 服务 ,这 才 让 他 意识 到 亚马逊 已 经 在 下 一 盘 很 大 的 棋 。 

所 有 的 科技 进步 都 是 在 解决 现实 问题 的 同时 提供 更 好 的 用 户 体验 ,亚马逊 做 到 了 ， 
Bezos 非常 注重 客户 体验 。 同 时 ,亚马逊 本 身 就 有 全 球 化 的 数据 中 心 , 这 与 是 否 存在 AWS 
没有 关系 ,但 AWS 服务 将 更 多 的 客户 带 入 亚马逊 ,因此 AWS 与 传统 的 电子 商务 系统 协同 
发 展 ,相互 促进 ,这 也 是 亚马逊 云 计 算 技 术 得 以 突飞猛进 的 一 个 重要 原因 。 

此 后 ,微软 的 Azure 和 谷歌 的 应 用 引擎 (App Engine) 都 在 尝试 亚马逊 的 这 种 商业 模 
式 。 中 国 的 百度 云 、 阿 里 云 等 也 赶 上 了 这 次 云 计算 浪潮 ,目前 也 初 具 规模 。 

目前 ,信息 存储 系统 还 朝 着 无 限 的 带宽 ,无 限 的 容量 和 无 限 的 处 理 能 力 CInfinite 
Bandwidth, Infinite Capacity, Infinite Processing Capability) , 即 31 的 方向 飞速 发 展 ,其 目标 
是 实现 “Anytime,Anywhere, Anything"3A 目标 , 即 可 在 任意 时 间 、 任 意 地 点 实现 任意 数据 
访问 。 存 储 产品 不 再 是 附属 于 服务 器 的 辅助 设备 ,而 成 为 互联 网 中 最 主要 的 花费 所 在 。 信 
息 技术 正 从 以 计算 为 核心 的 计算 时 代 进 入 到 以 存储 为 核心 的 存储 时 代 , 网 络 化 存储 已 经 成 
为 存储 市 场 的 热点 。 而 目前 的 云 存 储 服务 是 网 络 存储 发 展 的 必然 趋势 。 


1.2 云 存储 发 展现 状 


云 存 储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计算 系统 , 云 存储 与 云 计 算 息息相关 。 
1.2.1 定义 .服务 模型 与 分 类 


2011 Æ 9 月 ,美国 国家 标准 与 技术 研究 院 (National Institute of Standards and 
Technology,NIST) 中 对 云 计 算 的 定义 、 特 征 、 服 务 模式 和 类 型 作 了 详细 说 明 。 

云 计 算是 一 种 商业 计算 模型 , 它 可 以 实现 随时 随地 及 随 需 应 变 的 可 配置 的 IT 资源 ( 例 
如 ,计算 、 存 储 、 网 络 、 服 务 器 、 应 用 ) ,资源 能 够 快速 供应 并 释放 ,使 管理 资源 的 工作 量 及 与 服 
务 提供 商 的 交互 减 小 到 最 低 限 度 。 它 将 计算 任务 分 布 在 大 量 计算 机 构成 的 资源 池上 ,使 各 
种 应 用 系统 能 够 根据 需要 获取 计算 力 、 存 储 空间 和 各 种 软件 服务 。 它 是 并 行 计算 (Parallel 
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Computing)、 分 布 式 计算 (Distributed Computing) 和 网 格 计算 (Grid Computing) 的 发 展 ,或 
者 说 是 这 些 计算 机 科学 概念 的 商业 实现 。 

有 计算 的 地 方便 有 存储 ,特别 是 在 大 数据 时 代 , 数 据 为 王 , 通 常 需要 将 计算 能 力 迁 移 到 
存储 端 ,比如 最 近 提 出 的 Near-Data Processing( 近 数据 端 处 理 ) .In-Data Processing( 在 数据 
端 处 理 ) , Processing-in-Memory CfE VJ f£ T tb E) &. Processing-in-Storage( 在 存储 中 处 理 )， 
存储 与 计算 越 来 越 不 可 分 离 。 因 为 数据 量 太 大 ,将 数据 迁移 到 计算 端的 时 间 可 能 比 直 接 将 
存储 数据 的 设备 使 用 卡车 运送 到 计算 端 还 要 慢 。 

云 计算 的 服务 模型 可 以 分 为 3 种 ,如 图 1-1 所 示 。 


Je SaaS 如 : Google Docs, Microsoft, Salesforce online CRM. 
软件 即 服务 (SaaS) Oracle CRM On Demand. Office Live Workspace 


平台 即 服 务 (PaaS 如 : Google App Engine. Microsoft Windows Azure. 
ABIRI (PaaS) IBM IT Factory» Force. com 


cp UE EL 如 : Amazon EC2、S3 和 SQS、IBM Blue Cloud. Sun 
基础 设施 即 服务 (laaS ) Grid. Nirvanix SDN 、Cleversafe dsNet 


图 1-1 云 计算 的 3 种 服务 模型 


。 软件 即 服 务 (Software as a Service, SaaS); 是 一 种 通过 互联 网 提供 软件 的 模式 ,用 
户 无 须 购买 软件 ,可 直接 使 用 构建 在 云端 的 软件 来 管理 企业 经 营 活动 。 在 这 一 方 
面 ,比较 典型 的 有 Google Docs, Microsoft ,Salesforce online CRM, Oracle CRM On 
Demand, Office Live Workspace 等 。 

平台 即 服务 (Platform as a Service. PaaS): 用 户 使 用 云 平台 所 支持 的 语言 和 工具 ， 
开发 应 用 并 部 署 在 云 平台 上 。 用 户 不 直接 管理 或 控制 包括 网 络 、 服 务 器 、 存 储 ,甚至 
单个 应 用 功能 在 内 的 底层 云 基础 设施 ,但 可 以 控制 部 署 的 应 用 程序 ,也 有 可 能 配置 
应 用 的 托管 环境 。 比 如 将 软件 开发 平台 作为 一 种 服务 ,以 SaaS 的 模式 提交 给 用 户 。 
PaaS 的 出 现 可 以 加 快 SaaS 的 发 展 , 尤 其 是 加 快 SaaS 应 用 的 开发 速度 。 在 这 一 方 
面 ,比较 典型 的 有 Google App Engine, Microsoft Windows Azure, IBM IT Factory, 
Force. com 等 。 

基础 设施 即 服务 (Infrastructure as a Service. ]aaS) ; 用 户 通过 互联 网 可 以 获得 完善 
的 计算 机 基础 设施 服务 。5G 是 高 效 、 高 速 的 移动 互联 的 基础 设施 , 随 着 未 来 5G 
技术 的 发 展 ,对 基础 设施 服务 的 需求 会 日 益 增长 。 比 如 提供 处 理 器 、 存 储 、 网 络 等 
(虚拟 ) 硬 件 资源 给 用 户 , 用 户 可 任意 安装 软件 和 开发 环境 ,包括 安装 操作 系统 和 
应 用 程序 。 用 户 不 管理 或 控制 底层 的 基础 设施 ,但 可 以 控制 操作 系统 、 存 储 、 部 署 
的 应 用 ,也 有 可 能 选择 网 络 构件 (例如 .主机 防火 墙 ;。 在 这 一 方面 ,比较 典型 的 有 
WS i EC2,S3 和 SQS, IBM Blue Cloud, Sun Grid, Nirvanix SDN, Cleversafe 
dsNet 等 。 
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这 3 种 模型 从 应 用 到 平台 再 到 架构 , 越 来 越 底层 ,开发 者 获得 的 可 操作 性 和 灵活 性 也 越 
来 越 大 。 通 常 说 的 云 存储 一 般 可 分 类 到 IaaS, 但 对 于 云 存 储 服务 提供 者 ,他 们 提供 的 PaaS 
和 SaaS 同样 需要 云 存储 技术 来 部 署 相 应 的 平台 。 

按照 部 署 方式 , 云 计算 可 以 分 为 私有 云 (Private Cloud) TE [X zt (Community Cloud), 
公共 云 (Public Cloud) 与 混合 云 (Hybrid Cloud)4 种 模式 。 

私有 云 是 指 构建 在 一 个 组 织 内 部 且 为 该 组 织 或 者 信任 该 组 织 的 用 户 提供 服务 的 云 , 可 
以 由 该 机 构 或 第 三 方 管理 ; 社区 云 是 指 一些 有 着 共同 利益 (如 任务 、 安 全 需求 、 策 略 、 规 约 考 
虑 等 ) 并 打算 共享 基础 设施 的 组 织 共 同 创立 的 云 ,可 以 由 该 机 构 或 第 三 方 管理 ; 公共 云 是 指 
若干 企业 和 用 户 共 享 使 用 的 一 种 云 环境 ,由 销售 云 服 务 的 组 织 机 构 管理 ; 混合 云 由 两 个 或 
两 个 以 上 的 云 (私有 云 、 社 区 云 或 公共 云 ) 组 成 ,它们 各 自 独 立 , 但 通过 标准 化 技术 或 专 有 技 
术 绑 定 在 一 起 , 云 之 间 实 现 了 数据 和 应 用 程序 的 可 移植 性 。 

云 计 算 与 云 存 储 密 不 可 分 ,因此 云 计 算 的 定义 .服务 模型 和 分 类 同样 适用 于 云 存储 。 下 
面 将 介绍 为 什么 需要 云 存储 。 


1.2.2 为 什么 需要 云 存 储 


据 国 际 数据 公司 (International Data Corporation. IDC) 2013 年 的 报告 加 显示 ,2012 年 
全 球 数据 已 经 达到 2. 8ZB(1ZB 等 于 1 万 亿 GB,2.8ZB 也 就 相当 于 28 亿 个 1TB 的 移动 硬 
盘 ) ,而 这 个 数值 还 在 以 每 两 年 翻 一 番 的 速度 增长 ,预计 到 2020 年 全 球 将 总 共 拥 有 40ZB 的 
数据 量 , 如 图 1-2 所 示 。 


全 球 数据 量 (ZB) 


2005 2010 2012 2015 20200 - 
图 1-2 IDC 预测 全 球 数据 量 增长 趋势 


而 2013 年 中 国 的 数据 量 占 比 为 13% ,数据 总 量 超过 0. 8ZB( 相 当 于 8 亿 TB),2 倍 于 
2012 年 ,相当 于 2009 年 全 球 的 数据 总 量 。 预 计 到 2020 年 ,中 国产 生 的 数据 总 量 将 是 2013 
年 的 10 倍 , 超 过 8. 5ZB。2013 全 球 数据 分 布 如 图 1-3 所 示 。 

ARR IT 市 场 咨询 公司 Springboard Research F 2010 年 6 月 10 日 发 布 了 (中 国 云 存 储 
服务 报告 》(China Cloud Storage Services Report ) 器 。 报 告 显 示 , 未 来 5 年 中 国 云 存 储 服 
务 市 场 的 年 复合 增长 率 将 达到 103% ,平均 每 年 市 场 价值 翻 一 番 。 从 图 1-4 中 可 以 看 出 ,中 
国 云 存储 服务 的 市 场 价值 将 由 2009 年 的 605 万 美元 快速 增长 至 2014 年 的 2. 0854 亿美 元 。 
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图 1-4 2009 一 2014 年 中 国 云 存储 服务 的 市 场 价值 


同时 报告 指出 ,尽管 每 月 每 GB 的 存储 服务 价格 持续 下 降 , 但 是 云 存 储 市 场 总 容量 的 增 
长 幅度 更 快 ,从 而 推动 云 存储 市 场 整体 规模 在 未 来 5 年 内 的 快速 上 涨 。 图 1-5 显示 了 2009- 
2014 年 中 国 云 存储 服务 的 存储 容量 需求 ,预计 将 从 2009 年 的 0.6PB 上 升 到 2014 年 的 
66. 29PB ,增长 了 110 倍 以 上 。 


70 66.29 4 250 
60 20096 
172% 200 
g 50 x 165% z 
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图 1-5 2009—2014 年 中 国 云 存储 服务 的 存储 容量 需求 
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因为 最 新 数据 未 公开 ,所 以 图 示 数 据 都 是 旧 的 数据 ,在 本 小 节 中 只 是 以 此 说 明 数 据 量 在 
呈 指 数 级 增长 ,中国 在 全 球 数据 量 的 占 比 是 比较 高 的 , 云 存储 市 场 潜力 巨大 。 

根据 IBM 的 调查 统计 报告 中 ,企业 的 IT 费用 呈 逐 年 上 升 趋势 ,如 图 1-6 所 示 。 该 调查 
报告 将 IT 费用 分 解 为 3 个 方面 : 新 购置 服务 器 的 费用 、 服 务 器 管理 和 维护 费用 、 能 源 以 及 
制冷 设备 的 费用 。 在 这 3 个 方面 中 ,服务 器 管理 和 维护 费用 开销 最 大 ,而 且 上 升 速度 最 快 。 
为 了 保证 业务 高 峰 时 IT 系统 的 稳定 性 ,企业 实际 部 署 的 服务 器 的 峰值 工作 量 比 平均 值 要 
高 2 一 10 倍 , 因 此 数据 中 心服 务 器 的 利用 率 一 般 只 有 5262096. AIh EXER IT 建设 时 ， 
IT 工作 人 员 花 费 70% 的 时 间 和 精力 做 基础 架构 、 软 件 以 及 日 常 的 维护 工作 ,只 有 20% 或 者 
更 少 的 时 间 花 在 真正 与 业务 相关 的 系统 建设 上 。 


24 


冷 设 备 的 费用 
和 维护 费用 


Wm 新 购置 服务 器 的 费用 
200 
150 
100 
Ali 
$0B 
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图 1-6 Mna IT 费用 统计 与 预测 
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虽然 购置 服务 器 和 能 源 及 制冷 设备 的 成 本 相当 ,但 是 企业 的 管理 和 人 员 成 本 太 高 ,利用 
率 又 太 低 。 

选择 云 存储 服务 ,一 方面 能 够 为 企业 的 数据 中 心 节省 成 本 ,还 能 够 实现 资源 的 集中 共 
享 ,把 空闲 时 段 的 资源 补充 到 企业 更 需要 的 应 用 上 去 ,也 免 去 了 日 常 的 管理 与 维护 费用 ,与 
其 适 配 的 能 源 及 制冷 设备 亦 可 免 去 。 源 自 云 存储 服务 的 规模 经 济 性 ,可 以 实现 更 低 的 硬件 
成 本 、 更 低廉 的 电力 价格 、 更 低 的 管理 费用 ,加 上 更 高 的 利用 率 , 使 云 存 储 服务 的 经 济 性 提高 
ik 30 fii, 

图 灵 奖 获得 者 (Jim Gray) 在 其 获奖 演说 四 中 指出 : 由 于 互联 网 的 发 展 ,未 来 每 18 个 月 
新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 这 说 明 人 们 对 存储 容量 的 需求 是 惊人 的 ,存储 
市 场 具有 无 限 的 潜力 。 云 存储 是 信息 存储 的 一 种 趋势 , 它 可 为 用 户 带 来 如 下 好 处 。 

COD. 无 须 购置 初始 耗资 较 大 的 服务 器 ,也 免 去 了 专业 的 服务 器 及 数据 管理 人 员 ,避免 过 
大 的 初始 投资 ,能源 及 制冷 设备 减少 。 

(2) 实现 任意 地 点 、 任 意 时 间 、 任 意 数 据 访 问 。 

(3) 提供 可 用 性 、 可 维护 性 与 扩展 性 保障 。 

(4) 保障 法 规 遵从 的 需求 。 

(5) 实现 数据 长 期 保存 。 
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云 存储 的 主要 特色 是 : 容量 规模 大 ; 使 用 多 少 , 支 付 多 少 ; 上 不 封顶 ,下 不 设 限 。 有 了 
云 存储 ,永远 也 不 会 出 现存 储 空间 不 足 的 情况 。 对 存储 需求 不 可 预测 .需要 廉价 存储 阵列 或 
低 成 本 长 期 存档 的 用 户 来 说 , 按 需 购 买 存储 容量 的 云 存储 与 一 次 性 购买 整套 存储 系统 相 比 
显然 会 带 来 更 多 的 方便 和 效益 。 另 外 , 云 存 储 在 为 用 户 节省 初始 投资 的 同时 也 节约 了 社会 
资源 与 能 源 。 


1.2.3 现状 与 发 展 趋势 


高 德 纳 咨询 公司 (Gartner) 是 全 球 最 权威 的 IT 研究 与 顾问 咨询 公司 之 一 ,其 研究 范围 
覆盖 全 部 IT 产业 ,可 从 IT 的 研究 发展、 评估 ,应 用 ,市场 等 多 个 角度 ,为 客户 提供 客观 、 公 
正 的 论证 报告 及 市 场 调研 报告 ,协助 客户 进行 市 场 分 析 、 技 术 选 择 、 项 目 论证 等 。 尤 其 是 在 
投资 风险 和 管理 营销 策略 ,发 展 方向 等 重大 问题 上 ,利用 其 提供 的 重要 咨询 建议 ,决策 者 可 
以 更 科学 合理 地 做 出 正确 抉择 。 

技术 成 熟 度 曲 线 是 Gartner 为 企业 提供 的 一 种 用 于 评估 新 技术 成 熟 度 的 经 典 工 具 , 它 
将 各 种 新 科技 的 成 熟 演变 速度 及 达到 成 熟 所 需 的 时 间 分 成 如 下 5 个 阶段 。 

CD 技术 萌芽 期 (Innovation Trigger); 当 一 项 新 技术 诞生 时 ,伴随 着 业界 和 媒体 的 关 
iE ,无 论 是 大 众 还 是 业内 人 士 对 技术 的 期 望 值 都 越 来 越 高 。 在 这 个 阶段 用 户 的 需求 和 产品 
往往 并 不 成 熟 ,但 会 有 大 量 的 资金 进入 。 

(2) 期 望 膨胀 期 (Peak of Inflated Expectations): 公众 的 期 望 值 达到 顶峰 ,有 少量 用 户 
开始 采用 该 项 技术 。 

(3) 泡沫 破裂 期 (Trough of Disillusionment) : 过 高 的 期 望 值 和 产品 成 熟 度 之 间 存 在 鸿 
沟 , 公 众 的 期 望 值 下 降 , 出 现 负 面 评价 ,但 成 功 并 能 存活 的 经 营 模式 逐渐 成 长 。 

(4) KW EFH (Slope of Enlightenment); 相关 技术 供应 商 不 断 完善 自己 的 产品 ,加 
上 用 户 需 求 的 明确 ,产品 在 设计 和 应 用 场景 上 趋 于 成 熟 , 最 佳 实践 开始 出 现 。 

(5) 生产 高 峰 期 (Plateau of Productivity): 新 技术 产生 的 利益 和 潜力 被 市 场所 认可 , 开 
始 出 现 产 品 间 的 价格 竞争 。 

2017 年 7 月 ,高 德 纳 咨 询 公 司 (Gartner) 发 布 了 2017 年 度 存储 技术 成 熟 度 曲线 c9 ,如 
图 1-7 所 示 。 该 技术 成 熟 度 曲线 是 根据 存储 相关 的 硬件 和 软件 技术 的 商用 影响 、 采 用 率 和 
成 熟 度 进行 评估 ,以 便 帮 助 用 户 决 策 在 哪些 方面 以 及 何 时 对 这 些 存 储 技术 进行 投资 。 

该 报告 将 存储 市 场 细 分 为 共享 加 速 存储 、 管 理 SDS(Software-Defined Storage, 软件 定 
义 存储 )、 云 数据 备份 移动 设备 数据 备份 工具 、 文 件 分 析 、 开 源 存储 、 复 制 数据 管理 .SDS XE 
础 设施 和 集成 系统 。 集 成 系统 包括 超 融 合 ,数据 清理 、 集 成 备份 设备 ,存储 集群 文件 系统 、 跨 

台 结 构 化 数据 归档 信息 分 散 算法 、 对 象 存 储 、 固 态 DIMM (Dual In-line Memory Module. 
双 线 内 存 模 块 ) 新兴 数据 存储 保护 方案 、 混 合 DIMM .企业 终端 备份 、 云 存储 网 关 、 灾 备 即 
服务 、 公 共 云 存储 、 虚 拟 机 备份 与 恢复 、 针 对 消息 数据 的 SaaS 归档 在 线 数据 压缩 存储 多 租 
户 技术 ,企业 信息 归档 、 自 动 化 存储 分 层 、 基 于 网 络 的 复制 设备 、 连 续 数据 保护 (Continuous 
Data Protection, CDP) 、 重 复数 据 删除 、 外 部 存储 虚拟 化 和 固态 阵列 。 对 比 2016 年 度 的 存 
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图 1-7 2017 年 存储 技术 成 熟 度 曲 线 


时 间 


储 技术 成 熟 度 曲线 ,报告 中 没有 增加 任何 新 兴 技 术 。 

在 2017 年 的 技术 成 熟 度 曲 线 中 ,与 存储 安全 相关 的 技术 包括 : 云 数据 备份 (技术 萌芽 
期 ) ,移动 设备 数据 备份 工具 (技术 萌芽 期 )、 新 兴 数 据 存储 保护 方案 (泡沫 破裂 期 )、 灾 备 即 服 
务 ( 泡 沫 破裂 期 ) .虚拟 机 备份 与 恢复 (稳步 疏 升 期 ) 、 连 续 数 据 保 护 ( 稳 步 候 升 期 )。 其 中 的 公 
dz FE fik TE b de EE TESI ,说 明 大 众 对 云 存储 的 认 知 度 越 来 越 高 ,相关 技术 供应 商 不 断 完 
善 自 己 的 产品 ,加 上 用 户 需 求 的 明确 ,产品 在 设计 和 应 用 领域 上 趋 于 成 熟 ,最 佳 实践 开始 
出 现 。 

云 计算 自从 2009 年 在 Gartner 公司 的 新 兴 技 术 成 熟 度 曲 线 中 达到 峰值 以 来 ,已 经 历 了 
8 年 时 间 , 其 发 展开 始 趋 于 理性 , 度 过 了 “期 望 膨胀 期 *, 进 入 “泡沫 破裂 期 *。 业 界 已 不 再 热 
囊 于 炒作 云 计算 的 概念 ,而 是 将 实现 云 计算 规模 化 应 用 作为 努力 的 方向 。 在 2017 年 存储 技 
术 成 熟 度 曲 线 中 ,公共 云 存 储 已 经 进入 “稳步 疏 升 期 ,表明 技术 已 经 落地 ,进入 实质 生产 
阶段 。 

2017 年 2 月 ,全 球 各 大 IT 企业 发 布 财报 显示 , 云 计 算 的 营业 收入 及 份额 在 企业 的 总 体 比 
重 中 占据 越 来 越 重要 的 地 位 。 其 中 ,亚马逊 的 云 业 务实 现 营 业 收入 174. 6 亿美 元 , 排 在 首位 ; 
谷歌 CEO 在 财报 会 上 表示 2017 年 全 年 云 计算 收入 约 40 亿美 元 , 云 计 算 成 为 其 继 广告 收入 后 
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的 第 二 大 增长 动力 之 一 ; 阿里 云 2017 年 累计 营业 收入 则 超过 了 百 亿 元 人 民 币 。 据 Gartner 公 
司 的 调研 ,IaaS 市 场 收入 预计 将 从 2018 年 的 458 亿美 元 增长 到 2020 年 的 724 亿美 元 。 

无 论 从 技术 的 发 展现 状 ,还 是 企业 的 实际 营业 收入 , 云 计算 与 云 存储 的 发 展 都 已 经 步 人 
了 “稳步 疏 升 期 ”, 并 且 在 朝 着 * 生 产 高 峰 期 发展 。 从 目前 的 IT 行业 发 展现 状 来 看 , 云 存储 
的 发 展 趋势 必然 是 一 路 畅通 ,原因 总 结 如 下 ( 非 仅 限于 此 ) 。 

1. 大 数据 发 展 需要 云 计算 与 云 存储 

2017 年 11 月 11 日 ,淘宝 和 天 猫 商 场 实现 1682 亿 元 的 销售 额 ( 淘 宝 公布 数据 ) ,11 秒 交 
易 额 突破 1 亿 元 ,28 秒 交易 额 突破 10 亿 元 ,3 分 01 秒 交 易 额 突破 百 亿 元 ,40 分 12 秒 破 500 
亿 元 ,9 小 时 破 1000 亿 …… 其 背后 功臣 是 阿里 巴巴 研发 的 阿里 云 计 算 及 大 数据 处 理 平台 。 

大 数据 的 规模 效应 给 数据 存储 、 数 据 管理 以 及 数据 分 析 带 来 极 大 的 挑战 , 云 计 算 与 云 存 
储 作为 大 数据 的 支撑 技术 和 基础 平台 ,必然 会 得 到 IT 企业 的 重视 与 大 力 发 展 。 

2. 人 工 智能 技术 的 发 展 需要 云 计 算 与 云 存储 

人 工 智 能 、 深 度 学 习 都 是 当前 的 热点 研究 领域 ,但 它们 能 够 大 展 身手 的 两 个 前 提 条 件 
是 : 强大 的 计算 能 力 和 高 质量 的 大 数据 。 其 中 最 有 代表 性 的 事件 就 是 谷歌 大 脑 (Google 
Brain) 的 建立 , 它 是 一 个 庞大 的 深度 学 习 框 架 ,拥有 数 万 台 高 性 能 的 计算 机 和 顶级 的 图 形 处 
理 器 作为 计算 单元 。 

2012 年 6 月 ,谷歌 大 脑 ” 在 “看 "了 一 千 万 段 YouTube 上 的 视频 ,然后 自己 “学 习 ” 到 如 
何 从 视频 中 识别 一 只 猫 。 今 天 ,有 深度 学 习 的 进步 ,有 基于 互联 网 的 海量 数据 支撑 ,有 谷歌 
强大 的 云 计 算 平台 ,“ 谷 歌 大 脑 ” 正 在 帮助 谷歌 公司 解决 横 跨 多 个 领域 的 几乎 所 有 人 工 智能 
的 相关 问题 ; 谷歌 的 搜索 引擎 正在 使 用 “谷歌 大 脑 ”优化 搜索 结果 的 排序 ,或 直接 回答 用 户 
感 兴趣 的 知识 性 问题 ; 谷歌 的 街景 服务 使 用 “谷歌 大 脑 ” 智 能 识别 街道 上 的 门牌 号 ,以 进行 
准确 定位 ; 使 用 “谷歌 大 脑 * 的 谷歌 翻译 平台 在 2016 年 连续 取得 翻译 质量 的 革命 性 突破 ,将 
全 世界 一 百 多 种 语言 的 相互 翻译 质量 提升 了 一 个 层次 ; 谷歌 自动 驾驶 汽车 正 是 基于 “谷歌 
大 脑 ” 对 数 百 万 英里 的 行驶 记录 进行 分 析 , 以 改进 驾驶 策略 ,保证 绝对 安全 ……55 

大 数据 技术 的 发 展 , 给 人 工 智能 技术 带 来 了 曙光 ,而 人 工 智能 的 发 展 也 离 不 开 云 计算 与 
云 存储 提供 的 强大 的 计算 和 数据 处 理 能 力 。 

3. 物 联 网 的 发 展 需要 云 计 算 与 云 存储 

当前 已 经 进入 一 个 万 物 互 联 的 时 代 ,互联 的 万 物 又 无 时 无 刻 不 在 产生 大 量 的 数据 。 同 
时 ,各 国 网 络 基 础 设施 的 发 展 、 移 动 互联 网 的 发 展 、 即 将 到 来 的 5G 网 络 的 普及 、 智 能 手机 的 
广泛 应 用 ,进一步 促进 对 云 计 算 与 云 存储 的 需求 。 

为 适应 迅速 增长 的 移动 数据 量 ,满足 用 户 计算 需 求 , 云 计算 技术 通过 互联 网 提供 了 动态 
的 数据 接 入 、 存 储 和 计算 服务 。 亚 马 逊 AWS、 谷 歌 Drive、 百 度 开放 云 和 阿里 云 等 云 存储 服 
务 应 用 纷纷 推出 各 类 智能 终端 接 入 的 云 存储 解决 方案 ,降低 了 智能 手机 等 移动 终端 的 存储 
开销 ,提供 便利 的 数据 接 入 和 数据 分 享 。 

云 存储 可 以 实现 任意 地 点 、 任 意 时 间 、 任 意 数据 访问 及 保障 法 规 遵从 的 需求 等 。 对 存储 
需求 不 可 预测 .需要 廉价 存储 的 用 户 来 说 , 按 需 购买 存储 容量 的 云 存储 与 一 次 性 购买 整套 存 
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储 系统 相 比 显然 会 带 来 更 多 的 方便 和 效益 , 且 云 存储 在 为 用 户 节省 投资 的 同时 也 节约 了 社 
会 资源 与 能 源 。 当 用 户 将 数据 存放 在 云 存储 中 ,他 们 最 关心 的 是 数据 是 否 安全 ; 是 否 存 在 
隐私 泄露 ; 数据 是 否 完整 无 误 ; 如 果 出 现 故 障 ,是 否 可 以 恢复 其 数据 等 。 


1.3 云 存 储 安全 


因为 云 存 储 的 安全 性 .可靠 性 及 服务 水 平等 还 存在 众多 问题 亚 待 解决 ,所 以 云 存储 安全 
技术 也 得 到 了 广泛 关注 。 下 文 将 分 析 云 存储 服务 中 为 什么 存在 安全 问题 ,然后 详细 介绍 存 
在 的 安全 威胁 ; 为 了 应 对 这 些 威胁 ,需要 解决 哪些 问题 ; 如 果 解 决 了 这 些 问 题 ,仍然 面临 怎 
样 的 挑战 。 


1.3.1 为 什么 有 安全 问题 


与 传统 存储 相 比 , 云 存 储 , 特 别 是 公共 云 存 储 为 什么 会 有 更 多 的 安全 问题 ? 总 结 起 来 ， 
认为 主要 有 如 下 几 个 原因 52 。 

1. 云 存 储 的 租用 商业 模式 

在 传统 存储 系统 中 ,数据 用 户 拥有 存储 系统 的 完全 控制 权 ,而 且 存 储 资源 完全 由 用 户 支 
配 ,不 需要 与 其 他 用 户 共 享 。 这 种 情况 下 ,保障 安全 的 重点 是 防范 外 部 的 攻击 者 。 

而 在 公共 云 存储 中 ,数据 所 有 权 和 管理 权 分离 ,用 户 一 旦 将 数据 迁移 到 云 上 ,就 失去 了 
对 数据 的 直接 控制 权 。 存 储 资 源 由 服务 提供 者 控制 ,并 且 会 通过 虚拟 化 的 方式 将 存储 资源 
同时 租 给 多 个 用 户 使 用 。 此 时 不 仅 要 防范 外 部 的 攻击 者 ,内 部 威胁 更 为 严重 ,比如 恶意 的 云 
管理 员 、 可 利用 的 安全 漏洞 .不 当 的 访问 接口 等 。 用 户 的 隐私 数据 不 仅 可 能 暴露 给 云 服 务 提 
供 商 , 而 且 还 可 能 暴露 给 包括 竞争 对 手 在 内 的 其 他 用 户 。 另 外 ,在 PaaS 和 SaaS 中 ,因为 对 
加 密 数据 的 处 理 技术 还 不 成 熟 ,一 般 以 明文 形式 处 理 ,从 而 导致 其 中 的 敏感 数据 直接 暴露 给 
云 服务 提供 商 和 同一 机 器 上 的 其 他 租户 。 

2. 虚拟 化 技术 的 采用 

虚拟 化 技术 是 云 计 算 与 云 存 储 的 关键 支撑 技术 。 通 过 虚拟 化 ,一 方面 可 以 将 一 些 零散 
的 资源 整合 到 一 个 资源 池 ,比如 早期 Google 将 成 千 上 万 台 PC 通过 集群 系统 整合 到 一 起 ， 
作为 他 们 的 后 台 服 务 器 ; 另 一 方面 ,可 以 将 强大 的 资源 分 解 成 一 个 个 小 单元 ,为 不 同 用 户 提 
供 服务 ,比如 目前 的 公共 云 存储 服务 ,就 是 将 大 量 的 存储 资源 通过 虚拟 化 分 解 成 一 个 个 逻辑 
的 存储 服务 器 提供 给 不 同 用 户 使 用 。 

虚拟 化 技术 相当 于 云 计算 与 云 存 储 平 台 的 操作 系统 ,是 资源 能 够 动态 伸缩 并 得 到 充分 
利用 的 关键 。 通 过 对 CPU 内存、 硬盘 等 硬件 资源 的 虚拟 化 ,同一 台 物 理 机 上 可 以 同时 运行 
多 台 虚 拟 机 。 尽 管 这 些 共享 着 相同 硬件 资源 的 虚拟 机 在 虚拟 机 监控 器 (Virtual Machine 
Monitor,VMM) 或 Hypervisor( 虚 拟 机 管理 程序 ) 的 管理 下 彼此 隔离 ,但 攻击 者 仍然 可 以 通 
过 旁 路 侦 听 ,虚拟 机 逃逸 .流量 分 析 等 攻击 手段 从 一 台 虚 拟 机 上 获取 其 他 虚拟 机 上 的 数据 。 

作为 虚拟 化 的 核心 技术 ,Hypervisor 运行 在 比 操作 系统 特权 还 高 的 最 高 优先 级 上 。 它 
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可 以 捕获 CPU 指令 ,为 指令 访问 硬件 控制 器 和 外 设 充当 中 介 , 协 调 所 有 CPU 资源 分 配 。 
一 旦 Hypervisor 被 攻击 破解 ,在 Hypervisor 上 的 所 有 虚拟 机 将 无 任何 安全 保障 。 

虚拟 机 动态 地 被 创建 ,被 迁移 ,其 安全 措施 必须 相应 地 自动 创建 、 自 动迁 移 。 因 为 虚拟 
机 可 以 在 两 层 网 络 中 任意 迁移 ,在 迁移 的 过 程 中 其 安全 防护 更 加 困难 。 虚 拟 机 的 安全 措施 
如 果 没 有 自动 创建 ,会 导致 虚拟 机 的 管理 密 钥 被 盗 而 使 相应 的 服务 遭受 攻击 。 因 此 ,虚拟 化 
技术 带 来 了 极 大 的 安全 威胁 。 因 为 其 权限 太 大 ,还 没有 很 好 的 防护 手段 。 

3. 多 租户 共享 

多 租户 共享 同一 云 服务 提供 商 的 IT 资源 ,也 是 导致 云 架构 不 安全 的 一 大 隐患 。 特 别 
是 在 SaaS 云 模型 中 ,如 Google Docs 中 同一 个 应 用 进程 可 以 同时 为 多 个 租户 所 用 。 这 些 租 
户 的 数据 一 般 存放 在 同一 张 数据 表 中 ,采用 标签 进行 区 分 。 虽 然 可 利用 访问 控制 技术 来 确 
保 每 个 租户 只 能 访问 自己 的 数据 ,但 恶意 租户 利用 系统 漏洞 或 旁 路 攻击 等 方法 仍然 可 以 获 
得 其 他 用 户 的 数据 "”。 另 外 ,在 SaaS 服务 模式 中 ,数据 以 明文 形式 处 理 , 云 服务 器 可 以 读 
取 内 存 中 租户 的 数据 。 

4. 云 计 算 的 安全 悖 论 

很 多 中 小 企业 缺乏 信息 安全 管理 技术 与 基础 设施 ,迫切 需要 寻求 一 种 安全 的 数据 处 理 
与 存储 平台 ,那么 公共 云 计 算 与 云 存 储 服务 便 是 一 个 最 佳 的 选择 。 因 为 强大 的 云 计算 服务 
提供 商 可 以 利用 最 先进 的 安全 技术 来 保障 其 IT 基础 设施 ,包括 硬件 .系统 .软件 与 网 络 等 
的 安全 ,同时 为 用 户 数据 提供 更 完备 的 安全 保障 。 但 如 上 所 述 ,公共 云 计算 与 云 存储 反而 带 
来 了 更 多 的 安全 问题 , 即 有 很 好 的 安全 却 又 反而 不 安全 。 

同时 ,恶意 的 用 户 也 可 以 利用 强大 的 云 计算 资源 发 起 攻击 ,而且 还 将 自己 隐蔽 在 合法 的 
用 户 中 。 正 如 随 着 互联 网 和 摄像 头 的 普及 ,一 方面 让 犯罪 分 子 无 处 通 形 , 另 一 方面 也 让 用 户 
的 个 人 隐私 暴露 无 遗 。 

以 上 总 结 了 云 存 储存 在 安全 问题 的 几 个 原因 ,下 文 将 对 主要 的 云 存 储 安全 威胁 进行 
介绍 。 


1.3.2. 云 存 储 安全 威胁 


2010 年 9 月 ,发 现 Google 员工 利用 职权 查看 了 多 个 用 户 的 隐私 数据 ; 2011 年 3 H, 
Google 邮箱 再 曝 大 规模 用 户 数据 泄露 ; 2011 年 4 月 ,Amazon 的 EC2 云 计算 服务 被 黑客 租 
用 ,对 Sony PlayStation 网 站 进行 了 攻击 ,造成 大 规模 用 户 数据 的 泄露 ; 2012 年 8 月 ,苹果 
公司 的 iCloud 云 服务 受到 黑客 攻击 ,黑客 暴力 破解 用 户 密码 后 ,删除 了 部 分 用 户 资料 ,而 云 
平台 并 未 备份 用 户 数据 ,从 而 导致 用 户 数据 的 丢失 ,并 致使 用 户 Gmail 和 Twitter 账号 被 
Wi; 2014 年 8 月 ,美国 版 艳照 门 *iCloud 数据 外 泄 ; 2014 年 9 月 ,黑客 利用 苹果 iCloud zx 
端 系统 的 漏洞 将 其 数据 外 泄 ; 2014 年 10 月 ,美国 资产 规模 最 大 的 银行 一 一 摩根 大 通 由 于 计 
算 机 系统 遭 到 网 络 攻击 ,7600 万 家 庭 和 700 万 小 企业 的 相关 信息 被 泄露 ; 2015 年 4 月 ,上 
海 .重庆 等 超 30 个 省 市 约 5000 万 用 户 社保 信息 被 泄露 ; 2015 年 6 月 ,工商 银行 快捷 支付 被 
曝 存 在 严重 漏洞 ,发生 许多 工行 储户 存款 被 盗 事件 ; 2015 年 9 月 ,亚马逊 AWS 云 服务 发 生 
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宕 机 事件 ,给 其 数 家 互联 网 公司 客户 带 来 了 巨大 的 影响 ; 2015 年 10 月 ,网 易 邮箱 过 亿 用 户 
信息 被 泄露 2016 年 4 月 ,土耳其 方面 爆发 重大 数据 泄露 事件 ,直接 导致 近 5000 万 土耳其 
公民 的 个 人 信息 遭 到 威胁 ; 2017 年 2 月 ,知名 云 安全 服务 商 Cloudflare 被 曝 泄 露 用 户 
HTTPS 网 络 会 话 中 的 加 密 数 据 长 达 数 月 …… 此 类 事件 不 胜 枚 举 。 

随 着 金融 支付 等 业务 的 广泛 应 用 , 云 存 储 系统 承载 7 大 量 的 用 户 金 融 支付 和 私人 文件 
等 非常 敏感 的 数据 。 因 此 , 云 存 储 的 安全 性 成 为 制约 其 未 来 发 展 的 关键 因素 。 

如 前 所 述 , 云 存储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计算 系统 ,所 以 云 计算 的 安全 威 
胁 一 样 适用 于 云 存储 。 

为 了 让 企业 了 解 云 计算 的 安全 问题 ,以 便 采取 适合 的 安全 策略 , 云 计算 安 全 联盟 (Cloud 
Security Alliance,CSA) 发 布 7 了 “2016 年 云 计算 安全 的 12 X ge", WE Re 
列 出 的 12 个 最 重要 的 云 安 全 问题 (按照 调查 结果 的 严重 程度 排列 ) 。 

1. 数据 泄露 

数据 作为 企业 的 重要 资产 ,很 容易 成 为 黑客 攻击 的 目标 。 它 可 能 涉及 任何 不 适合 公开 
发 布 的 信息 ,包括 个 人 身份 信息 .个 人 健康 信息 、 财 务 信息 .商业 机 密 和 知识 产权 等 。 一 旦 发 
生 数 据 泄 露 ,企业 有 可 能 会 收 到 巨额 罚款 或 面临 法 律 诉 讼 ,甚至 是 刑事 指控 ,也 会 造成 品牌 
形象 下 跌 和 业务 流失 ,会 对 企业 造成 持续 的 不 良 影响 甚至 破产 。 数 据 泄露 风险 并 不 是 云 计 
算 独 有 的 ,但 它 始终 是 云 计 算 用 户 的 首要 考虑 因素 。 

2. 身份 ,凭证 和 访问 控制 不 善 

数据 泄露 和 一 些 攻击 通常 都 是 因为 身份 验证 、 弱 口令 和 管理 松散 等 问题 引起 的 。 云 计 
算 安 全 联盟 表示 ,网 络 犯罪 分 子 伪装 成 合法 用 户 、 运 营 人 员 或 开发 人 员 , 可 以 读 取 、 修 改 和 删 
除数 据 ,获得 管理 权限 ,在 用 户 传输 数据 过 程 中 盗 取 数据 ,甚至 发 布 恶 意 软件 。 

美国 第 二 大 医疗 保险 公司 Anthem 数据 泄露 事件 中 ,超过 8 千 万 客户 记录 被 盗 ,就 是 用 
户 凭 证 被 瓷 的 结果 。Anthem 没有 采用 多 因子 身份 验证 ,因此 一 旦 攻击 者 获得 了 凭证 ,进出 
系统 如 入 无 人 之 境 。 

3. 不 安全 的 访问 接口 和 应 用 程序 接口 (AP 

云 计 算 提 供 商 提供 了 一 组 客户 使 用 的 软件 用 户 界 面 (User Interface, UI) 和 应 用 程序 接 
O (Application Programming Interface,API) 来 方便 用 户 与 云 服 务 器 的 交互 。 访 问 接口 和 
API 通 常 都 可 以 从 公 网 访问 ,因此 成 为 系统 的 对 外 接口 ,也 最 容易 成 为 被 攻击 的 目标 。 

不 安全 的 访问 接口 和 有 漏洞 的 API 将 使 企业 面临 很 多 安全 问题 ,机密 性 、 完 整 性 、 可 用 
性 和 可 靠 性 都 会 受到 考验 。 云 计算 安全 联盟 称 ,从 身份 验证 和 访问 控制 ,到 数据 加 密 和 行为 
监测 ,都 依赖 这 些 访问 接口 和 API, 因 此 这 些 访问 接口 和 API 的 安全 性 至 关 重 要 。 

4. 系统 漏洞 

系统 漏洞 是 指 攻击 者 可 以 用 来 人 侵 系统 ,窃取 数据 、 控 制 系统 或 破坏 服务 操作 的 程序 漏 
洞 。 因 为 云 存 储 的 多 租户 特性 ,不 同 用 户 使 用 相同 的 存储 基础 设施 ,并 且 人 允许 访问 共享 内 存 
和 资源 ,导致 存在 安全 风险 。 

云 计算 安全 联盟 表示 ,操作 系统 组 件 中 的 漏洞 使 得 所 有 服务 和 数据 面临 的 安全 风险 最 
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大 。 虽 然 修复 系统 漏洞 的 开支 比 其 他 IT 支出 要 多 一 些 , 但 在 部 署 基础 设施 的 过 程 中 修复 
漏洞 的 开支 ,会 比 因为 漏洞 而 遭受 攻击 的 损失 少 得 多 。 

5. 账户 支持 

劫持 账户 是 一 种 常见 的 攻击 方法 ,比如 利用 网 络 钓鱼 .诈骗 .软件 漏洞 等 劫持 合法 账户 ， 
然后 进行 一 系列 的 非法 操作 。 比 如 窃听 用 户 行为 , 当 进 行 支付 动作 时 ,将 用 户 重 定向 到 非法 
网 站 。 而 且 , 有 些 云 服务 还 共享 访问 凭证 ,从 而 出 现 一 个 服务 的 账户 被 动 持 ,会 导致 其 他 的 
服务 也 不 安全 。 

另外 ,在 云 存储 环境 下 ,合法 账户 被 劫持 后 ,攻击 者 可 以 访问 云 存 储 服 务 的 关键 区 域 。 
它 的 目标 可 能 并 不 是 被 劫持 的 用 户 ,而 是 与 之 相 邻 的 其 他 用 户 , 从 而 危及 其 他 用 户 数据 的 机 
密 性 、 完 整 性 与 可 用 性 。 

6. 内 部 威胁 5 

计算 机 安全 应 急 响 应 组 (Computer Emergency Response Team,CERT) 是 专门 处 理 计 
算 机 网 络 安全 问题 的 组 织 。 早 在 2000 年 ,该 组 织 即 已 开展 内 部 威胁 检测 项 目 。 根 据 CERT 
的 定义 ,内 部 威胁 是 指 一 个 或 多 个 现在 或 以 前 的 公司 员工 、 外 包 商 或 合作 伙伴 ,具有 对 网 络 、 
系统 或 数据 的 访问 权限 ,故意 滥用 或 误 用 自己 的 权限 损害 公司 信息 或 信息 系统 的 机 密 性 、 完 
整 性 与 可 用 性 59 。 

内 部 威胁 是 云 计算 安全 面临 的 最 严重 的 挑战 之 一 。2013 年 “斯 诺 登 事件 ” 即 由 内 部 人 
员 公开 内 部 数据 ,从 而 引起 媒体 广泛 关注 ,而 这 只 是 内 部 威胁 的 冰山 一 角 。SailPoint 安全 
公司 曾 做 过 一 个 安全 调查 , 受 访 者 中 20% 的 人 表示 只 要 价钱 合适 便 会 出 卖 自 己 的 工作 账号 
和 密码 。 美 国 计 算 机 安全 协会 (CSI) 和 联邦 调查 局 (FBI) 在 2008 年 的 报告 中 指出 ,内 部 安 
全 事件 所 造成 的 损失 明显 高 于 外 部 安全 事件 。2015 年 普 华 永 道 的 调查 指出 ,中 国内 地 与 香 
港 特别 行政 区 的 企业 信息 安全 事件 中 50% 以 上 是 由 内 部 人 员 造 成 的 。 

云 计 算 安全 联盟 表示 ,虽然 有 些 威胁 的 严重 程度 是 有 争议 的 ,但 在 某 一 点 上 是 有 共识 
的 , 即 内 部 威胁 是 一 个 真正 的 威胁 。 怀 有 恶意 的 内 部 人 员 ( 如 系统 管理 员 ) 可 以 访问 潜在 的 
敏感 信息 ,可 以 更 多 地 访问 更 重要 的 系统 ,并 最 终 访问 数据 。 仅 依靠 云 服务 提供 商 提供 安全 
措施 的 系统 将 面临 更 大 的 风险 。 

7. 高 级 持续 性 威胁 

高 级 持续 性 威胁 (Advanced Persistent Threats,APT) 攻 击 ,也 称 针对 性 攻击 ,是 一 种 寄 
生 的 网 络 攻 击 方式 , 它 渗透 到 目标 公司 IT 基础 设施 中 ,建立 自己 的 立足 点 ,从 中 窃取 数据 。 
常见 的 渗透 方式 包括 网 络 钓鱼 `U 盘 预 载 恶 意 软件 .通过 被 黑 的 第 三 方 网 络 等 。APT 混入 
正常 网 络 流量 ,因此 很 难 被 侦 测 到 。 对 此 ,除了 云 服务 提供 商 要 应 用 高 级 安全 策略 阻止 
APT 渗透 进 他 们 的 基础 设施 , 云 用户 也 要 经 常 检测 自己 的 账户 是 否 存在 APT 行为 。 

8. 数据 丢失 

当 出 现 火灾 或 地 震 等 自然 灾害 .遭受 攻击 和 服务 器 损坏 等 各 种 意外 情况 时 ,都 可 能 导致 
客户 数据 的 永久 丢失 。 相 应 的 法 律 法 规 通 常会 规定 公司 必须 保留 审计 记录 和 其 他 文件 的 时 
Wi , 若 此 类 数据 丢失 ,就 会 造成 严重 的 监管 后 果 。 
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随 着 云 服务 技术 的 成 熟 , 由 服务 提供 商 失 误导 致 的 永久 数据 丢失 已 经 比较 少见 了 ,倒是 
恶意 黑客 会 利用 删除 云端 数据 的 方式 来 危害 公司 。 对 于 云 服务 提供 商 来 说 ,多 地 分 布 式 部 
署 其 云 服务 平台 ,建立 好 的 数据 备份 与 恢复 机 制 ,遵循 业务 持续 性 和 灾难 恢复 最 佳 实践 ,都 
是 最 基本 的 防止 永久 数据 丢失 的 方法 。 

9. 对 拟 采 用 的 服务 调研 不 足 

企业 在 没有 完全 理解 云 环境 及 其 相关 风险 的 情况 下 ,就 购置 云 服 务 ,会 存在 很 多 商业 、 
金融 .技术 法律 和 合 规 风 险 。 企 业 是 否 需 要 将 其 数据 和 应 用 迁移 到 云 环境 ,怎样 选择 服务 
提供 商 ,都 要 进行 充分 的 调研 ,尤其 要 仔细 审查 服务 提供 商 的 资质 和 合同 中 的 责任 条 款 。 

云 计算 安全 联盟 表示 ,企业 管理 层 在 制定 战略 时 ,要 对 云 计算 技术 和 服务 提供 商 进行 评 
估 和 考量 ,而 且 应 制定 一 个 良好 的 考量 策略 ,明确 他 们 要 承担 的 风险 。 

10. 滥用 云 服务 

云 服务 可 以 帮助 企业 减少 初始 投资 和 管理 成 本 ,但 同时 , 它 也 可 能 被 攻击 者 用 来 开展 违 
法 活动 ,比如 利用 云 计算 资 源 破解 密 钥 、 利 用 云 计算 资源 来 定位 用 户 、 发 起 分 布 式 拒绝 服务 
(Distributed Denial of Service,DDoS) 攻 击 .发送 垃圾 邮件 和 钓鱼 邮件 .托管 恶意 内 容 等 。 

服务 提供 商 要 能 够 识别 各 种 类 型 的 云 服 务 滥用 情况 ,比如 通过 检测 流量 识别 DDoS 攻 
击 ,企业 也 要 确保 服务 提供 商 拥 有 服务 滥用 的 报告 机 制 和 预防 机 制 。 

11. 拒绝 服务 

这 种 威胁 也 属于 滥用 云 服务 的 一 种 ,恶意 用 户 占 用 大 量 的 云 计 算 资 源 , 如 CPU FF 
磁盘 空间 或 网 络 带宽 ,导致 合法 用 户 不 能 正常 访问 其 数据 或 应 用 。 

针对 拒绝 服务 (Denial of Service,DoS) 攻 击 ,需要 云 服务 提供 商 有 较 好 的 攻击 检测 与 预 
防 机 制 , 当 出 现 攻击 时 ,有 办 法 抵御 攻击 并 能 快速 恢复 正常 服务 。 

12. 共享 架构 中 的 技术 漏洞 

云 计 算 服 务 提供 商 通过 共享 基础 架构 .平台 和 应 用 程序 来 实现 多 租户 共享 资源 ,在 节省 
大 量 成 本 的 同时 ,也 带 来 了 客户 的 数据 安全 风险 。 在 对 各 类 资源 进行 隔离 中 可 能 存在 的 各 
类 技术 漏洞 ,可 能 在 所 有 交付 模式 中 被 攻击 者 利用 。 

2016 年 4 月 ,欧洲 议会 投票 通过 了 商讨 4 年 之 久 的 《一般 数据 保护 条 例 》(General Data 
Protection Regulation，GDPR)。 该 法 规 包 括 91 FAM ,共计 204 页 。 该 条 例 将 于 2 年 后 ， 
即 2018 年 5 月 25 日 正式 生效 。 新 条 例 的 通过 意味 着 欧盟 对 个 人 信息 保护 及 其 监管 达到 了 
前 所 未 有 的 高 度 , 可 称 为 史上 最 严格 的 数据 保护 条 例 。 非 欧盟 成 员 国 的 公司 (包括 免费 服 
务 ) 只 要 满足 下 列 两 个 条 件 之 一 : 为 了 向 欧盟 境内 可 识别 的 自然 人 提供 商品 和 服务 而 收 
集 、 处 理 他 们 的 信息 。@ 为 了 监控 欧盟 境内 可 识别 的 自然 人 的 活动 而 收集 、 处 理 他 们 的 信 
息 。 这些 公司 就 受到 GDPR 的 管辖 。 这 个 条 例 将 对 中 国企 业 的 数据 管理 和 信息 安全 ,以 及 
数据 收集 .处 理 和 交易 产生 重大 影响 。 

对 于 一 般 性 的 违法 ,罚款 上 限 是 1000 万 欧元 或 企业 上 一 年 度 全 球 营业 收入 的 2 96 (两 
者 中 取 数 额 大 者 ); 对 于 严重 的 违法 ,罚款 上 限 是 2000 万 欧元 或 企业 上 一 年 度 全 球 营业 收 
入 的 4%( 两 者 中 取 数 额 大 者 )。 
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REF 2017 年 6 月 1 日 起 施行 (中 华人 民 共 和 国 网 络 安全 法 》 和 最 高 人 民法 院 、 最 高 人 
民 检 察 院 (关于 办 理 侵犯 公民 个 人 信息 刑事 案件 适用 法 律 若干 问题 的 解释 》, 以 加 强 网 络 安 
全 和 个 人 隐私 保护 。 其 中 规定 ,非法 获取 、 出 售 或 者 提供 公民 个 人 信息 5000 条 以 上 .违法 所 
得 5000 元 以 上 可 入 罪 。 

针对 信息 安全 领域 的 法 律 法 规 建 设 是 应 对 云 存 储 安 全 威胁 的 一 项 有 力 举措 。 


1.3.3 需要 解决 的 几 个 问题 


综 上 所 述 ,根据 云 存 储 中 安全 问题 的 根源 和 云 计算 的 12 大 安全 威胁 ,总 结 出 要 保障 云 
存储 安全 需要 解决 的 几 个 问题 。 

1. 云 存储 安全 体系 结构 

安全 是 一 项 系统 工程 ,需要 系统 化 的 方法 和 机 制 来 保障 全 面 的 安全 。 云 存储 提供 的 是 
可 伸缩 的 数据 服务 ,无 法 清晰 地 定义 安全 边界 及 保护 设备 ,这 给 制定 并 实施 云 存 储 的 安全 保 
护 措 施 增加 了 难度 。 因 此 ,对 云 存 储 安全 体系 结构 要 有 明确 的 定义 和 界限 划分 ,使 其 能 够 清 
晰 地 描述 安全 体系 结构 的 层次 ,各 层 之 间 的 接口 ,各 层 需要 采取 的 安全 机 制 ,以 及 可 以 保障 
哪些 方面 的 安全 ,从 而 形成 一 套 保障 安全 的 系统 化 的 体系 结构 。 

2. 云 存 储 虚拟 化 安全 

如 上 所 述 ,虚拟 化 是 安全 问题 的 根源 之 一 。 因 其 权限 大 ,管辖 范围 广 , 在 云 存储 安全 风 
险 中 占据 了 很 大 比重 。 对 不 同 的 云 用 户 来 说 , 云 存储 系统 是 一 个 相同 的 物理 系统 ,而 不 再 像 
传统 网 络 一 样 有 物理 的 隔离 和 防护 边界 ,由 此 虚拟 系统 被 越界 访问 等 无 法 保证 数据 隔离 性 
的 问题 也 就 难以 避免 。 因 此 , 云 存储 虚拟 化 安全 就 是 要 保障 数据 的 安全 隔离 ,防范 各 类 系统 
漏洞 和 侧 信道 攻击 。 

3. 云 存储 系统 访问 控制 

云 存 储 服 务 面临 的 威胁 ,首先 来 自 于 身份 认证 和 访问 控制 问题 。 作 为 云 存 储 服务 的 访 
问 入 口 ,它们 一 旦 被 攻破 ,就 犹如 城 门 失守 ,入 侵 者 必 将 长 驱 直 入 ,直接 威胁 到 云 存 储 的 安 
全 。 因 此 , 云 存 储 系统 的 访问 控制 ,包括 系统 的 认证 与 授权 ,需要 根据 云 存 储 系统 的 应 用 需 
求 , 有 较 完 备 的 安全 策略 和 实施 方法 。 

4. 云 存储 数据 机 密 性 保障 
在 信息 安全 的 三 要 素 中 ,数据 机 密 性 是 排 在 第 一 位 ,其 重要 性 不 言 而 喻 。 在 云 存 储 服 务 

,因为 数据 存储 在 云 服 务 器 上 ,用 户 失 去 了 对 数据 的 完全 控制 权 ,那么 要 保障 数据 的 机 密 
,通常 就 是 在 数据 上 传 到 云 服 务 器 之 前 ,对 数据 进行 加 密 处 理 。 云 环境 下 有 着 海量 的 数 
,因此 需要 轻 量 级 的 快速 加 密 算 法 ; 数据 加 密 后 ,传统 的 信息 检索 机 制 不 再 适用 ,需要 相 
应 的 密 文 搜索 算法 ; 同时 也 需要 支持 密 文 处 理 的 加 密 算 法 ,因为 存在 一 些 诸如 密 文 数据 的 
共享 、 密 文 数据 挖掘 、 密 文 数据 去 重 等 问题 需要 解决 。 

5. 云 存储 数据 完整 性 保障 

数据 上 传 到 云 服 务 器 后 ,怎样 保障 数据 不 被 自 改 或 删除 ? 怎样 检测 到 这 些 不 法 行为 ? 
因此 ,需要 一 些 数据 完整 性 保障 机 制 ,可 以 实现 数据 持 有 性 验证 ,检测 到 数据 是 否 被 自 改 ; 


BO 于 
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如 果 自 改 , 又 怎样 进行 恢复 。 

6. 云 存储 数据 备份 与 恢复 

云 存储 系统 也 要 考虑 极端 情况 下 的 数据 安全 ,比如 地 震 、 洪 水 .火灾 等 可 能 的 天 灾 人 祸 
带 来 的 数据 安全 风险 。 在 灾难 发 生 时 如 何 避 免 数据 服务 中 断 及 数据 丢失 等 问题 ,通常 是 通 
过 各 种 备份 技术 来 保障 系统 的 可 靠 性 和 数据 的 恢复 。 

7. 云 存储 入 侵 检测 

云 存储 系统 作为 一 个 公共 数据 中 心 ,具有 多 客户 连接 ,高 交互 性 ,数据 安全 保障 要 求 高 
等 特点 ,对 入 侵 攻击、 病毒 和 恶意 软件 十 分 敏感 ,有 必要 对 云 存储 中 的 数据 流 进行 实时 、 主 
动 的 检测 和 防御 。 

8. 云 存储 应 用 最 佳 安全 实践 

要 保障 云 存储 应 用 安全 ,通常 有 一 些 安 全 规则 ,它们 需要 从 日 常 实践 中 进行 归纳 与 总 
结 ,还 包括 制定 云 存储 服务 安全 标准 ,从 而 实现 云 存储 服务 安全 、 健 康 地 发 展 。 

针对 这 些 需要 解决 的 问题 ,本 书 将 逐一 进行 讨论 ,结合 已 有 的 技术 和 最 新 的 研究 成 果 ， 
提出 以 上 问题 的 一 般 解决 方案 。 不 过 ,除了 上 述 需 要 解决 的 问题 ,在 云 存 储 服务 中 仍然 面临 
一 些 目 前 还 无 较 好 解决 办 法 的 挑战 。 


1.3.4 面临 的 挑战 


上 一 小 节 提出 的 几 个 问题 可 以 通过 各 种 技术 手段 来 解决 ,但 对 于 云 存 储 , 仍 然 存在 一 些 
目前 还 没有 较 好 技术 手段 可 以 解决 的 问题 。 这 些 人 们 面临 的 挑战 列举 如 下 ( 非 仅 限于 此 )。 

1. 数据 的 可 信和 删除 

云 存 储 服务 的 用 户 可 能 某 天 不 需要 这 个 服务 了 ,怎样 保障 她 /他 的 数据 被 完全 彻底 地 删 
BR? 对 于 传统 存储 ,因为 用 户 拥有 IT 基础 设施 的 完全 控制 权 , 可 以 利用 技术 手段 ,将 服务 
器 上 的 数据 彻底 删除 。 但 在 云 存储 服务 中 , 当 某 个 用 户 离开 该 云 服务 后 ,她 /他 使 用 过 的 磁 
盘 会 租赁 给 其 他 用 户 。 如 上 所 述 , 通 常数 据 删除 只 是 在 文件 系统 中 将 相应 的 文件 索引 删除 ， 
而 没有 进行 物理 上 的 数据 删除 。 即 当 用 户 删 除 硬盘 上 的 数据 时 ,并 没有 将 数据 真正 从 计算 
机 的 硬盘 上 删除 ,只 是 删除 了 相应 文件 的 索引 。 即 使 对 磁盘 进行 格式 化 ,也 只 是 为 操作 系统 
创建 一 个 新 的 索引 ,将 磁盘 的 扇 区 标记 为 未 使 用 ,其 之 前 的 数据 记录 并 没有 被 删除 ,因此 仍 
然 可 以 恢复 磁盘 上 之 前 存放 的 数据 。 

在 云 存 储 环境 下 ,还 没有 很 好 的 技术 手段 可 以 保证 云 服务 提供 商会 彻底 删除 离开 该 服 
务 的 用 户 的 数据 。 

2. 数据 外 包 模 式 下 的 内 部 威胁 

当 数据 外 包 存 储 在 云 上 , 云 服 务 器 的 管理 员 客观 上 就 具备 了 偷 宕 和 泄露 用 户 数据 的 能 
力 ,如 何 保证 云 存 储 服务 的 内 部 管理 人 员 不 偷窥 不 泄露 .不 破坏 用 户 的 数据 ,成 为 一 个 极 具 
挑战 性 的 问题 ,也 成 为 近年 来 学 术 界 和 工业 界 共同 关注 的 热点 。 

3. 数据 迁移 风险 

经 济 时 代 , 行 业 市 场 瞬息 万 变 , 一 些 云 服 务 提供 商 可 能 因为 各 类 原因 停止 提供 云 存储 服 
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务 , 或 者 用 户 对 当前 的 云 服务 提供 商 的 服务 或 用 户 条 款 产 生 不 满 ,希望 换 一 家 云 服务 提供 
商 ,这 时 用 户 就 需要 将 其 数据 迁移 ,那么 原来 存储 在 云 服 务 器 上 的 数据 便 会 成 为 一 个 极 大 的 
安全 隐患 。 

4. 加 密 数 据 的 处 理 

在 传统 的 存储 系统 中 ,一 般 采 用 加 密 方 式 来 确保 存储 数据 的 安全 性 和 隐私 性 。 在 laaS 
云 服务 模式 中 ,如 果 用 户 只 是 用 来 存放 数据 ,那么 加 密 数 据 是 没有 问题 的 ; 但 在 PaaS 和 
SaaS 云 模式 中 ,用 户 需 要 在 云端 对 数据 进行 处 理 , 如 果 数 据 被 加 密 , 各 种 处 理 操作 将 变 得 困 
难 。 这 也 是 云 存储 面临 的 一 个 安全 悖 论 : 加 密 数据 可 以 保障 数据 的 安全 性 和 隐私 性 ,但 却 
让 数据 不 能 在 云端 进行 各 类 处 理 操作 。 


1.4 本章 小 结 


本 童 从 云 存储 的 兴起 讲 起 ,详细 介绍 了 云 存储 的 发 展现 状 与 趋势 。 具 体 来 说 ,包括 云 计 
算 与 云 存储 的 定义 、 服 务 模型 和 分 类 ,用 数据 说 明了 为 什么 需要 云 存 储 ,从 技术 成 熟 度 曲线 
角度 介绍 了 云 存 储 的 发 展现 状 , 从 未 来 的 需求 角度 说 明了 云 存储 的 发 展 趋势 。 接 下 来 ,针对 
大 家 普遍 关心 的 云 存 储 的 安全 性 ,详细 说 明了 为 什么 会 有 云 存储 安全 问题 ,并 总 结 了 CSA 
报告 的 12 大 云 计算 安全 威胁 。 针 对 这 些 安全 问题 和 威胁 ,提出 需要 解决 的 几 个 问题 ,从 而 
引出 本 书 将 要 详细 介绍 的 云 存储 安全 技术 。 除 了 可 以 使 用 技术 手段 解决 的 这 些 安全 问题 ， 
本 章 也 进一步 指出 了 云 存储 仍然 面临 的 挑战 。 

本 章 作为 全 书 的 基础 ,为 下 文 做 铺垫 ,引出 本 书 将 重点 介绍 的 一 些 云 存储 安全 技术 ,在 
下 文中 将 逐一 详细 讲解 。 


参考 文献 


[1] Brad Stone. The Everything Store: Jeff Bezos and the Age of Amazon [M]. London: Bantam Press, 
2013. 

[2] GE. 为 什么 AWS 云 计算 服务 是 亚马逊 先 做 出 来 ,而 不 是 Google? [EB/OL]. 2005[2018-4-15 ]. 
https: //www. zhihu. com/question/20058413/answer/325838352. 

[3] Steve Grand. Creation: Life and How to Make It [M]. Cambridge: Harvard University Press,2001. 
[4] Peter Mell, Timothy Grance. The NIST Definition of Cloud Computing, NIST Special Publication 800- 
145 [S]. 2011[2018-2-1]. http: //csrc. nist. gov/publications/nistpubs/800-145/SP800- 145. pdf. 

[5] IDC. Annual Reports [EB/OL]. 2013[2018-4-15]. https://www. idc. co. za/financial-results/2013- 
annual-report/. 

[6] Springboard Research. China Cloud Storage Services Report [ EB/OL ]. 2010[2018-4-15]. http:// 
www. springboardresearch. com/NewsDetail. aspx? CID— 1005. 

[7] New Economics of Cloud Computing. IBM Corporate Strategy analysis of IDC data,2009. 

[8] IBS. 首届 中 国 云 计 算 大 会 报告 : 3G 时 代 的 云 计 算 [R]， 2009[2018-4-15 ]. http://www. 


ciecloud. net/. 


第 1 章 ” 云 存储 概述 |» 19 


[9] Jim Gray. What Next? A Few Remaining Problems in Information Technology [R]. 1998[2018-4- 
15]. http;//research. microsoft. com/~gray/talks/Gray_Turning_FCRC. pdf. 

[10] Gartner. Hype Cycle for Storage Technologies [ EB/OL ]. 2017 [2018-4-15 ]. https://www. 

gartner. com/technology/ research/hype-cycles/. 

L1] 李开复 , EWR. 人 工 智 能 LM]. 北京 : 文化 发 展 出 版 社 ,2017: 75-77. 

L2] 冯 朝 胜 , RHI RT. 云 数 据 安全 存储 技术 [J]. 计算 机 学 报 ,2015,38(1): 150-163. 

[13] Kamara S, Lauter K. Cryptographic Cloud Storage [C]. In Proceedings of the 14th International 

Conference on Financial Cryptography and Data Security, Berlin, Germany.2010; 136-149. 

[14] Cloud Security Alliance. The Treacherous Twelve: Cloud Computing Top Threats in 2016 [ EB/ 

OL]. 2017[2018-4-15]. https://cloudsecurityalliance. org/artifacts/the-treacherous-twelve-cloud- 

computing-top-threats-in-2016/. 


[15] 王国 峰 , 刘 川 意 , 潘 鹤 中 ,等 . 云 计 算 模式 内 部 威胁 综述 [J]. 计算 机 学 报 ,2017,40(2) : 296-316. 
[16] Cappelli D M,Moore A P,Trzeciak R F. The CERT Guide to Insider Threats: How to Prevent, 


Detect, and Respond to Information Technology Crimes [M]. Boston; Addison-Wesley Professional, 
2012. 


“万 丈 高 楼 平地 起 ”需要 牢固 的 根基 与 框架 设计 ,在 研究 云 存储 安全 时 ,也 需要 首先 制定 
良好 的 体系 结构 。 如 同 计算 机 网 络 中 的 分 层 体 系 结构 让 计算 机 网 络 协议 的 设计 变 得 清晰 与 
明白 ,在 云 环境 下 云 存储 安全 体系 也 是 采用 分 层 式 结构 。 


2.1 云 存储 安全 体系 


本 节 介 绍 云 存 储 安 全 体系 。 首 先 阐述 云 存 储 系统 的 层次 模型 ; 然后 在 对 应 层次 模型 
下 ,介绍 云 存 储 系统 安全 体系 结构 。 


2.1.1 云 存储 系统 层次 模型 


与 传统 的 存储 系统 相 比 , 云 存 储 系统 不 仅 包括 硬件 ,还 包括 由 存储 设备 、 计 算 设 备 、 网 络 
设备 .服务 器 .应 用 软件 .公共 访问 接口 和 客户 端 程序 等 多 个 部 分 组 成 的 复杂 系统 。 各 部 分 
以 存储 设备 为 核心 ,通过 应 用 软件 来 对 外 提供 数据 存储 和 业务 访问 功能 。 云 存储 系统 的 体 
系 结构 可 分 为 物理 资源 层 、 虚 拟 化 层 、 基 础 管理 层 、 应 用 接口 层 和 访问 层 , 如 图 2-1 所 示 。 

(1) 物理 资源 层 : 作为 云 存 储 最 基础 的 部 分 ,存储 设备 可 以 是 FC 光纤 通道 存储 设备 、 
NAS 和 SAN 等 IP 存储 设备 ,也 可 以 是 SCSI ak SAS 等 DAS 存储 设备 。 数 量 庞大 的 云 存 
储 设 备 分 布 在 不 同 地域 , 彼 此 之 间 通 过 广域网 ,互联 网 或 者 FC 光纤 通道 网 络 连接 。 所 有 物 
理 资源 构成 一 个 集 存储 .计算 与 网 络 设备 以 及 数据 库 等 于 一 体 的 物理 资源 仓库 。 

(2) 虚拟 化 层 : 对 存储 、 计 算 与 网 络 设备 进行 逻辑 虚拟 化 ,将 各 类 资源 划分 为 统一 规格 
的 存储 、 计 算 与 网 络 单元 ,构成 存储 、 计 算 、 网 络 以 及 数据 等 资源 池 , 以 分 配给 用 户 。 

(3) 基础 管理 层 : 基础 管理 层 是 云 存储 最 核心 的 部 分 ,通过 集群 系统 、 分 布 式 文件 系统 
和 网 格 计算 等 技术 ,实现 云 存 储 中 多 个 存储 设备 之 间 的 协同 工作 ,对 外 提供 良好 的 数据 访问 
性 能 。 

(4) 应 用 接口 层 : 包括 公用 API 接口 应 用 软件 以 及 网 络 接 入 等 。 不同 的 云 存 储 运营 单 
位 可 以 根据 实际 业务 类 型 ,开发 不 同 的 应 用 服务 接口 ,提供 不 同 的 应 用 服务 。 任 何 一 个 授权 用 
户 通过 网 络 接 和 人、 用 户 认证 和 权限 管理 接口 等 方式 登录 云 存储 系统 ,都 可 以 享受 云 存 储 服 务 。 


访问 层 


应 用 接口 层 


基础 管理 层 


虚拟 化 层 


物理 资源 层 


(5) 访问 层 : 
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网 络 存储 、 在 线 文 | | 企 事 业 单位 或 SMB 实 现 数 )( 视频 监控 、IPTV 等 系统 集 
人 Sm 据 备份 与 容 灾 、 数 据 归 中 存储 、 Ad 


档 、 集 中 存储 、 远 程 共享 


网 络 接 入 
公用 API 接口、 应 用 软件 、Web 服务 …… 


压缩 


( 存储 资源 池 | 计算 资源 池 ) ( 网 络 资源 池 I 数据 资源 池 ) 
存储 设备 计算 设备 网 络 设备 数据 库 


图 2-1 云 存储 系统 的 体系 结构 组 成 


= 分 布 式 文件 系统 、 (eee 、P2P、 重 复数 据 删除 、 | 
计算 


利用 云 存 储 服务 提供 商 访问 层 所 提供 的 不 同 访问 类 型 和 访问 方式 ,用 户 


可 享受 诸如 个 人 空间 服务 .运营 商 空间 租赁 ` 企 事业 单位 或 SMB 的 数据 灾 备 与 远程 共享 ， 
以 及 视频 监控 IPTV 和 视频 点 播 等 各 种 应 用 服务 。 


2.1.2 云 存储 系统 安全 体系 结构 


通常 , 云 存 储 系统 的 体系 结构 如 图 2-2 所 示 ,数据 拥有 者 将 数据 存放 到 云 服务 提供 者 的 
存储 云 上 ,然后 通过 各 类 轻 量 型 设备 访问 云 上 的 数据 ; 也 可 以 通过 一 些 访问 控制 方式 ,将 数 
据 与 其 他 用 户 共享 。 


1.5 0S sS 


数据 访问 控制 ret 
? 


数据 拥有 者 用 户 
图 2-2 ” 云 存 储 系统 的 体系 结构 
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在 数据 拥有 者 或 用 户 与 云 存储 服务 器 交互 的 过 程 中 ,存在 以 下 安全 风险 。 

(1) 数据 拥有 者 将 数据 传输 到 云 存 储 服务 器 的 过 程 中 ,外 部 攻击 者 可 以 通过 网 络 窃听 
的 方式 盗 取 数据 。 

(2) 数据 存储 到 云 服务 器 上 以 后 ,外 部 攻击 者 可 以 通过 钓鱼 软件 .木马 和 无 授权 的 访问 
等 方式 来 破坏 服务 提供 者 对 用 户 数据 和 程序 的 保护 ,从 而 实现 非法 访问 。 

(3) 由 于 数据 拥有 者 的 数据 存放 在 服务 提供 者 的 存储 介质 上 ,失去 了 对 数据 的 物理 控 
制 权 , 云 服务 提供 者 的 内 部 人 员 可 能 滥用 权限 ,对 数据 安全 造成 威胁 。 

(4) 数据 拥有 者 向 用 户 授权 数据 访问 时 ,面临 如 何 防范 恶意 用 户 以 及 保障 交互 过 程 安 
全 的 问题 。 

(5) 外 部 攻击 者 可 以 通过 观察 用 户 发 出 的 请 求 , 获 得 用 户 的 习惯 \ 目 的 等 隐私 信息 。 因 
此 ,从 数据 的 发 送 、 存 储 到 访问 的 整个 过 程 中 ,都 存在 内 外 部 的 安全 风险 。 

另外 ,在 云 存储 系统 的 层次 模型 中 ,各 个 层次 都 存在 安全 威胁 。 在 物理 资源 层 , 云 服务 
提供 商 的 物理 设施 可 靠 吗 ? 当 灾 难 ( 停 电 、 地 震 , 水 灾 、 火 灾 等 ) 发 生 造 成 物理 设备 损坏 时 ,用 
户 的 数据 是 否 可 用 ? 是否 存在 对 设备 的 攻击 ? 在 虚拟 化 层 ,虚拟 化 的 环境 与 平台 安全 吗 ? 
对 于 虚拟 化 的 多 租户 及 平台 共享 ,是 否 有 对 应 的 安全 措施 ?在 基础 管理 层 ,系统 安全 能 不 能 
得 到 保障 ? 有 安全 性 评价 标准 吗 ? 在 应 用 接口 层 , 云 提供 的 应 用 可 信 吗 ? 在 数据 访问 层 , 数 
据 的 安全 有 保证 吗 ? 云 服务 提供 商会 不 会 滥用 用 户 的 数据 ? 用 户 应 该 使 用 何 种 安全 保障 强 
度 的 云 服 务 ? 

只 有 将 物理 环境 \ 硬 件 设备 \ 硬 件 技术 、 软 件 技 术 等 综合 起 来 ,才能 实现 完整 的 安全 性 。 
因此 , 自 底层 到 顶层 ,存在 物理 安全 、 虚 拟 化 安全 数据 安全 以 及 应 用 安全 。 从 信息 安全 的 角 
度 来 看 ,在 传统 三 要 素 (CIA 三 元 组 ) 一 一 机 密 性 (Confidentiality) 、 完 整 性 (Integrality)、 可 用 性 
(Availability) 的 基础 上 ,作者 认为 有 必要 加 入 访问 控制 (Access Control) ,将 其 延伸 到 
CIAA, 3X 4 个 方面 被 认为 是 保障 云 存储 安全 的 核心 技术 。 

具体 到 目前 对 云 存储 安全 的 研究 , 云 存储 系统 安全 体系 结构 如 图 2-3 所 示 。 

在 物理 资源 层 ,一 方面 要 保障 物理 环境 安全 ,将 云 中 心 建立 在 一 个 适宜 的 环境 中 ; 另 一 
方面 也 要 保障 物理 设备 安全 ,有 电磁 防护 .门禁 系统 .机 房 监控 系统 等 。 

在 虚拟 化 层 , 因 为 虚拟 化 使 原 有 信息 系统 的 边界 不 复 存在 ,因此 虚拟 机 安全 便 成 为 云 存 
储 安全 的 关键 。 为 实现 虚拟 机 安全 监控 \ 虚 拟 机 安全 迁移 、 虚 拟 机 安全 隔离 以 及 虚拟 机 安全 
镜像 等 ,需要 适当 的 系统 隔离 技术 保障 多 租户 的 数据 与 应 用 安全 ,需要 安全 的 远程 管理 技 
术 , 需 要 对 系统 进行 状态 监控 并 及 时 维护 升级 。 

基础 管理 层 是 云 存 储 最 为 核心 的 部 分 ,也 是 最 复杂 的 部 分 。 基 础 管理 层 大 量 采 用 了 集 
群 管理 技术 和 分 布 式 存储 系统 的 成 熟 方法 ,在 实现 良好 的 可 扩展 性 的 同时 ,也 满足 了 可 用 性 
及 性 能 的 需求 ,可 提供 数据 分 块 存储 、 建 立 数据 索引 ,数据 加 密 、 密 钥 管 理 、 密 文 搜索 和 完整 
性 证 明 。 此 外 , 它 还 负责 重复 数据 删除 、 容 灾 备 份 等 任务 。 容 灾 备 份 技术 指 的 是 在 磁盘 故障 
或 者 天 灾 等 意外 和 灾难 发 生 的 时 候 , 能 够 通过 自身 的 一 些 特殊 的 机 制 ,进行 故障 的 检测 与 恢 
复 ,最 小 化 灾难 和 意外 带 来 的 影响 ,使 用 户 能 够 不 受 影响 地 照常 使 用 数据 服务 ,保证 云 存储 
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网 络 接 入 
公用 API 接口 、 应 用 软件 、Web 服务 …… 


基础 管理 层 | 集群 系统 、 分 布 式 文件 系统 、 内 容 分 发 、 oo 
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图 2-3 云 存 储 系统 安全 体系 结构 


数据 自身 的 安全 和 稳定 。 

云 存 储 应 用 安全 建立 在 身份 认证 和 对 资源 的 权限 控制 基础 上 。 在 应 用 接口 层 ,要 防止 
攻击 者 以 非法 手段 窃取 用 户口 令 和 身份 信息 ,要 对 来 访 者 有 适当 的 权限 访问 控制 与 管理 机 
制 。 比 如 ,在 Web 服务 中 ,要 重点 关注 数据 传输 安全 、 身 份 认证 与 鉴别 ,访问 控制 以 及 抵抗 
拒绝 服务 攻击 等 方面 。 

为 了 保障 数据 拥有 者 对 数据 的 控制 权 , 用 户 可 以 在 数据 访问 层 自主 加 密 数据 ,然后 通过 
应 用 接口 层 的 服务 接口 将 加 密 数 据 存储 到 云 服务 器 。 同 时 ,需要 采用 传统 的 网 络 安全 技术 
保障 传统 边界 安全 ,包括 防火 墙 与 病毒 防护 技术 等 。 因 为 传统 防火 墙 技 术 无 法 有 效 对 抗 更 
隐蔽 的 攻击 行为 ,如 欺骗 攻击 和 木马 攻击 ,而且 传统 病毒 防护 软件 无 法 对 木马 .邮件 类 病毒 、 
蠕虫 进行 全 网 整体 的 防护 。 在 云 存 储 的 多 租户 共享 环境 下 ,将 有 大 量 的 终端 用 户 接 和 人 ,如 何 
防范 不 安全 的 接 人 是 云 存储 中 安全 接 人 的 重要 任务 。 

而 更 加 笼统 地 划分 , 云 存 储 的 安全 威胁 主要 包括 内 部 威胁 和 外 部 威胁 两 个 方面 。 其 中 
以 内 部 威胁 更 难 防 范 , 主 要 包括 远程 管理 风险 、 亚 意 的 内 部 员工 、 操 作 失误 、 云 基础 框架 中 的 
软 硬 件 错误 等 。 外 部 威胁 是 指 通过 云 服务 器 与 用 户 之 间 的 交互 接口 ,利用 软 硬 件 以 及 管理 
上 的 漏洞 对 系统 进行 人 侵 与 攻击 。 


2.2 数据 生命 周期 中 的 安全 风险 


用 户 将 其 数据 存放 到 云 存 储 服务 器 ,从 数据 的 产生 、 数 据 存 储 、 数 据 利用 、 数 据 共 享 、 数 
据 迁 移 直至 数据 销毁 ,就 是 数据 的 生命 周期 。 

用 户 数据 在 云 服务 器 上 静态 存储 时 ,可 能 因为 容 灾 备份 ,数据 有 多 个 副本 存储 在 服务 器 
上 。 数 据 被 利用 时 ,可 能 存在 于 内 存 、 网 络 或 磁盘 缓存 等 介质 中 。 在 数据 生命 周期 中 的 每 个 
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阶段 ,数据 安全 都 面临 着 不 同 的 安全 威胁 ,因此 需要 对 应 的 安全 机 制 来 抵御 。 

1. 数据 产生 

数据 产生 阶段 由 数据 拥有 者 生成 数据 ,但 还 未 存储 到 云 服 务 器 。 通 常 认为 这 个 阶段 的 
数据 是 安全 的 ,但 为 了 保障 后 续 数 据 安全 ,需要 对 数据 进行 一 些 处 理 , 比 如 对 数据 进行 加 密 、 
建立 索引 、 生 成 完整 性 验证 标签 ,为 数据 添加 属性 (数据 类 型 .安全 级 别 等 ) 等 。 在 数据 产生 
阶段 ,用 户 必须 了 解 自身 数据 的 安全 属性 ,才能 根据 需要 设置 对 应 的 安全 策略 及 进行 必要 的 
预 处 理 。 

2. 数据 存储 

将 数据 存储 到 云 存 储 服务 器 ,面临 以 下 安全 风险 。 

COD. 用 户 失 去 对 数据 的 物理 控制 权 ,数据 存放 位 置 不 确定 ,与 哪些 用 户 共享 物理 资源 不 
可 知 , 以 及 对 数据 的 隔离 机 制 也 知之 甚 少 。 

(2) 数据 存储 在 云 服务 器 上 ,有 内 部 人 员 威 胁 , 云 服 务 器 可 能 被 病毒 破坏 、 被 木马 入 侵 ， 
因此 数据 存在 丢失 和 算 改 的 风险 。 

(D 云 服 务 器 可 能 遭受 自然 灾害 、 战 争 等 不 可 抗力 因素 的 破坏 ,对 用 户 数据 造成 不 可 挽 
回 的 损失 。 

因此 ,将 数据 保存 到 云 平台 上 ,要 考虑 静态 数据 的 隐私 性 、 机 密 性 、 完 整 性 .可 用 性 与 可 
靠 性 等 。 目 前 保障 以 上 安全 性 的 机 制 有 数据 加 密 存 储 、 建 立 密 文 索引 实现 密 文 搜索 .生成 可 
验证 标签 对 数据 实施 完整 性 验证 、 对 数据 进行 远程 容 灾 备 份 等 。 因 为 云 存 储 下 大 量 的 用 户 
以 及 海量 的 数据 ,所 以 对 用 户 数据 的 加 密 一 般 采 用 对 称 密码 算法 。 

3. 数据 利用 

数据 利用 是 指 用 户 将 数据 存储 后 ,可 以 定期 或 不 定期 地 访问 数据 ,并 可 能 对 数据 进行 增 
加 、 删 除 或 修改 等 更 新 操作 ,也 可 以 对 数据 进行 检索 以 及 进行 完整 性 验证 等 。 在 数据 利用 阶 
段 , 存 在 以 下 的 安全 风险 。 

CD 非法 访问 风险 : 如 果 云 服务 提供 商 没 有 严格 的 访问 控制 与 授权 机 制 , 可 能 让 攻击 
者 有 机 会 非法 访问 、 算 改 或 破坏 用 户 的 数据 ,甚至 使 合法 用 户 不 能 正常 地 访问 其 数据 。 

(2) 数据 传输 安全 : 用 户 通 过 网 络 远 程 访问 数据 ,在 数据 传输 过 程 中 ,可 能 会 遭受 攻击 
者 拦截 或 算 改 数据 。 

(3) 服务 质量 (Quality of Service, QoS) 保 证 : 用 户 使 用 云 数据 时 ,会 对 数据 的 传输 性 
能 有 一 定 的 要 求 ,但 因为 用 户 是 通过 网 络 访问 数据 ,会 受到 网 络 环境 等 外 部 条 件 的 限制 ,而 
不 一 定 能 够 达到 用 户 期 待 的 服务 质量 ,满足 用 户 的 需求 。 

4. 数据 共享 

数据 共享 是 指 用 户 将 其 存储 在 云 服 务 器 上 的 数据 与 第 三 方 共享 。 在 数据 共享 过 程 中 存 
在 较 多 的 安全 风险 。 除 了 以 上 网 络 安全 风险 外 ,重点 要 防范 数据 访问 控制 与 授权 风险 , 即 与 
第 三 方 共 享 数据 时 可 能 造成 的 非法 访问 数据 的 风险 。 这 就 需要 数据 拥有 者 及 云 服务 提供 商 
协同 提供 合理 的 访问 控制 与 授权 机 制 ,使 得 只 有 被 授权 的 第 三 方 可 以 访问 数据 。 
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5. 数据 迁移 

数据 迁移 是 指 将 很 少 使 用 或 不 使 用 的 数据 迁移 到 一 个 单独 的 存储 设备 (如 磁带 或 光盘 ) 
进行 长 期 保存 的 存档 过 程 。 在 数据 迁移 准备 阶段 ,要 对 待 迁移 数据 的 属性 有 详细 的 了 解 , 包 
括 数据 的 存储 方式 数据 量 ,数据 的 时 间 跨 度 等 。 在 数据 迁移 过 程 中 ,要 制定 详细 的 迁移 策 
咯 。 在 数据 迁移 完成 后 ,还 要 对 数据 进行 校 验 ,数据 校 验 的 结果 是 判断 数据 迁移 是 否 成 功 的 
重要 依据 。 对 数据 进行 校 验 的 内 容 包 括 数 据 格式 ,数据 完整 性 与 一 致 性 等 方面 。 

在 数据 迁移 过 程 中 要 注意 以 下 问题 。 

(1) 平滑 过 渡 : 无 论 是 同 构 数 据 迁 移 还 是 异 构 数据 迁移 ,要 考虑 迁移 过 程 中 ,用 户 仍然 
可 以 访问 数据 ,如 何 实现 不 同 格式 数据 服务 可 以 在 用 户 无 感知 的 情况 下 做 到 平滑 迁移 是 要 
注意 的 问题 。 

(2) 出 错 处 理 : 在 数据 迁移 过 程 中 发 生 错误 要 怎么 处 理 是 迁移 过 程 中 要 注意 的 问题 ， 
要 求 在 迁移 准备 阶段 做 好 错误 预 判 , 并 在 实施 阶段 设计 错误 追踪 方案 及 相应 的 解决 方案 。 

(3) 数据 迁移 测试 : 要 保障 数据 迁移 完成 后 数据 的 正确 性 、 完 整 性 与 可 用 性 。 

在 数据 迁移 阶段 , 云 数据 除了 面临 和 数据 存储 阶段 类 似 的 安全 风险 外 ,还 面临 如 下 安全 
风险 。 

CD 大 规模 数据 迁移 造成 数据 的 可 用 性 问题 : 当 迁 移 的 数据 量 非 常 大 时 ,数据 迁移 过 
程 可 能 需要 花费 几 个 月 甚至 几 年 的 时 间 , 这 样 长 时 间 的 迁移 过 程 ,随时 有 可 能 影响 数据 的 
使 用 。 

(2) 合 规 性 风险 : 某 些 特殊 数据 对 归档 使 用 的 存储 介质 以 及 时 间 期 限 有 一 些 特殊 规 
定 , 而 云 服务 提供 商 不 一 定 能 满足 这 些 特殊 要 求 , 造 成 数据 的 合 规 性 风险 。 

6. 数据 销毁 

对 于 自主 控制 的 存储 ,数据 销毁 很 容易 做 到 ,可 一 旦 将 数据 存储 到 云 上 后 ,数据 销毁 却 
成 为 一 件 非 常 困难 的 事情 。 通 常 ,计算 机 删除 数据 时 ,并 没有 将 数据 从 计算 机 的 硬盘 上 真正 
地 删除 ,只 是 删除 了 文件 相应 的 索引 ,使 得 用 户 不 能 通过 文件 系统 访问 该 文件 。 而 对 硬盘 进 
行 格式 化 操作 时 ,也 并 没有 将 磁盘 上 数据 删除 ,而 只 是 重新 创建 文件 系统 并 创建 新 的 索引 ， 
将 磁盘 的 扇 区 标记 为 未 使 用 过 。 因 此 ,攻击 者 仍然 可 以 在 获取 硬盘 后 利用 一 定 的 数据 恢复 
方式 来 还 原 被 删除 的 数据 。 

同时 ,因为 云 服务 提供 商 不 一 定 是 可 信 的 ,用 户 无 法 确信 云 服 务 器 是 否 真正 地 删除 了 数 
据 。 因 此 ,对 于 用 户 的 敏感 数据 ,通常 需要 加 密 后 再 存储 到 云 服 务 器 上 ,可 以 避免 因为 云 服 
务 器 不 可 信 带 来 的 数据 销毁 问题 。 对 于 云 服 务 提 供 商 ,为 了 完成 数据 销毁 ,可 以 采用 磁盘 擦 
写 的 方式 来 删除 用 户 的 数据 。 


2.3 保障 云 存 储 安全 的 几 个 原则 


云 存储 安全 除了 以 上 从 技术 角度 提出 的 安全 体系 结构 ,提供 整套 的 保障 安全 的 技术 方 
案 ,还 需要 建立 安全 目标 验证 、 安 全 服务 等 级 测评 相关 的 安全 标准 与 测评 体系 ,以 及 自 上 而 
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下 的 安全 监督 管理 制度 体系 。 在 文献 [1] 中 , 陈 驰 等 人 对 云 计算 安全 建设 原则 已 经 作出 总 
结 ,本 节 结 合 新 的 研究 工作 再 次 总 结 了 设计 安全 云 存 储 系统 时 需要 遵循 的 一 些 安 全 原则 。 

(1) 要 有 合理 的 安全 假设 。 最 好 的 安全 假设 是 除 自己 以 外 的 所 有 实体 都 是 不 可 信和 的， 
因为 假设 云 存 储 服务 器 是 不 可 信和 的 ,所 以 数据 拥有 者 需要 对 数据 加 密 存放 ,提取 数据 时 还 要 
进行 数据 完整 性 验证 。 此 外 ,在 系统 实现 时 的 密码 算法 可 由 用 户 根据 数据 的 敏感 度 选 择 相 
应 强度 的 加 密 算法 。 

(2) 保障 整体 性 原则 。 正 如 * 木 桶 原理 ”所 述 , 短 板 最 终 容易 成 为 众矢之的 ,即使 其 他 部 
位 安全 强度 再 高 ,也 没有 意义 。 因 此 ,根据 云 存储 系统 安全 体系 结构 ,制定 全 生命 周期 的 安 
全 方案 ,各 个 部 位 及 环节 都 需要 有 完备 的 安全 设计 。 

G) 熟悉 安全 标准 与 法 规 , 保 障 数据 的 合 规 性 。 尽 可 能 选择 本 地 化 服务 ,要 考虑 云 服务 
器 的 物理 位 置 , 最 好 是 在 可 以 控制 的 界限 内 ,比如 在 企业 内 部 在 国家 内 部 等 。 

(4) 对 选择 的 云 存储 服务 提供 商 要 有 足够 的 了 解 ,包括 云 存储 服务 提供 商 的 信誉 、 服 务 
质量 、 服 务 器 的 可 用 性 与 可 靠 性 ,甚至 还 要 了 解 服务 器 的 具体 地 理 位 置 ,双方 的 服务 协议 尽 
可 能 具体 和 细 化 。 同 时 ,根据 数据 的 敏感 度 选择 云 存 储 服务 提供 商 及 安全 机 制 。 

(5) 对 于 非常 重要 的 数据 ,可 以 考虑 建立 混合 云 框 架 , 结 合 私有 云 和 公共 云 ,可 以 提供 
所 有 云 计算 的 优势 ,同时 对 人 敏感 数据 实现 重点 保护 。 也 可 以 结合 多 云 存储 ,以 避免 单 服 务 提 
供 商 可 能 造成 “厂商 锁定 ”。 

(6) CSA 建议 采用 深度 防御 策略 ,包括 在 所 有 托管 主机 上 应 用 多 因子 身份 认证 ,启用 基于 
主机 和 基于 网 络 的 入侵 检测 系统 ,应 用 最 小 特权 、 网 络 分 段 概念 ,实施 共享 资源 补丁 策略 等 。 

CO 尽 可 能 做 长 远 的 考虑 。 虽 然 目 前 一 些 云 服 务 提 供 商 拥有 较 好 的 利润 率 ,但 并 不 意 
味 着 将 来 也 一 直 如 此 。 因 此 ,业务 连续 性 和 灾难 恢复 也 是 用 户 需要 考虑 的 问题 。 

另外 ,还 有 尽量 提供 多 重 安全 保护 、 技 术 与 管理 并 重 等 。 从 技术 的 角度 ,将 数据 交 给 有 
专业 信息 安全 人 员 管 理 的 云 存储 服务 器 会 比 存 储 于 本 地 更 安全 。 文 献 [2] 从 加 密 存储 、 安 全 
审计 和 密 文 访问 控制 3 个 方面 对 云 数据 安全 存储 的 最 新 研究 进展 分 别 进行 了 评述 。 关 于 云 
存储 安全 的 综述 文献 可 以 参考 文献 [3-9]。 


2.4 本章 小 结 
本 章 首先 介绍 了 云 存储 系统 的 层次 模型 以 及 该 模型 下 的 云 存储 系统 安全 体系 结构 ; 然 


后 对 数据 生命 周期 以 及 各 个 阶段 的 安全 风险 进行 分 析 ; 最 后 结合 系统 安全 体系 结构 及 生命 
周期 安全 风险 ,总 结 了 保障 云 存储 安全 的 几 个 原则 。 


参考 文献 


[1] 陈 驰 , Fh. 云 计算 安全 体系 LM]. 北京 : 科学 出 版 社 ,2014. 
[2] 冯 朝 胜 , 秦 志 光 , 囊 丁 . 云 数据 安全 存储 技术 []]. 计算 机 学 报 ,2015,38(1) : 150-163. 


[3] 
[4] 


L5] 


[6] 


C7] 


[8] 
[9] 


第 2 章 ” 云 存储 安全 体系 结构 > 27 


BE. RR FER F. 一 种 云 存储 环境 下 的 安全 存储 系统 [J]. 计算 机 学 报 ,2015,38(5): 987-998. 
FE, PAXCH , 李 凤 华 ,等 . 公共 云 存储 服务 数据 安全 及 隐私 保护 技术 综述 []]. 计算 机 研究 与 发 展 ， 
2014,51(7): 1397-1409. 

Chunming Rong, Son T. Nguyen, Martin Gilje Jaatun. Beyond Lighting: A Survey on Security 
Challenges in Cloud Computing [J]. Computers and Electrical Engineering, 2013,39: 47-54. 

PR, 苏 文博 ,和 孟 坤 ,等 . 云 计算 安全 : BHO tl SMI HOI). 计算 机 学 报 ,2013,36(9): 
1765-1784. 

GG, 罗 圣 美 , 舒 继武 .安全 云 存储 系统 与 关键 技术 综述 [J]. 计算 机 研究 与 发 展 ,2013,50(1): 
136-145. 

ER, 张 敏 , 张 妍 ,等 . zGPEEXEAEBESELI]. 软件 学 报 ,2011,22(1) : 71-83. 

WHR, KE ERW. 云 计 算 安全 体系 架构 研究 [J]. 信息 网 络 安全 ,2011,8: 79-81. 


云 存储 虚拟 化 安全 


在 云 计 算 与 云 存储 平台 上 ,资源 高 度 集 中 ,多 租户 共享 物理 资源 ,并 且 租 户 可 部 署 应 用 
软件 ,导致 云 服务 提供 商 无 法 保证 自身 平台 的 安全 性 ,用 户 失去 了 对 数据 的 物理 控制 权 , 平 
台 上 大 量 的 系统 软件 和 应 用 软件 带 来 严重 的 安全 隐患 。 

作为 云 平 台 的 支撑 技术 一 一 虚拟 化 技术 ,经 常 漏洞 百出 。 目 前 主流 的 虚拟 化 系统 ,如 
Xen, KVM, VMware 等 都 存在 很 多 安全 漏洞 ; 云 平台 上 租户 部 署 的 商业 操作 系统 与 应 用 软 
件 的 安全 漏洞 则 数 以 千 计 。 

虚拟 化 安全 在 云 存 储 系 统 中 至 关 重 要 。 本 章 首先 介绍 虚拟 化 技术 及 分 类 ,从 虚拟 化 技 
术 带 来 的 安全 挑战 说 起 ,阐述 存在 的 攻击 方法 及 其 对 应 的 安全 机 制 ; 最 后 指出 仍然 有 待 研 
究 的 问题 和 未 来 的 发 展 方向 。 


3.1 云 存 储 虚 拟 化 技术 


最 早 的 虚拟 化 技术 可 以 追溯 到 20 世纪 60 年 代 的 IBM M44/44X 中 以 及 IBM 360/370 
系列 主机 55 ,它们 最 初 是 用 来 解决 IBM 第 三 代 架 构 和 操作 系统 中 多 道 程序 的 弱点 。 近 几 
十 年 来 ,虚拟 化 技术 取得 了 飞速 的 发 展 ,已 经 在 服务 器 虚拟 化 桌面 虚拟 化 应 用 虚拟 化 中 得 
到 了 广泛 的 应 用 ,可 以 支持 各 类 安全 计算 平台 RO RS BE A LE BOE 
台中 中 以 及 多 操作 系统 "等 。 

通常 ,虚拟 化 服务 是 在 客户 操作 系统 和 底层 硬件 之 间 的 软件 层 中 实现 的 。 该 软件 层 接 
收 来 自 操作 系统 的 请 求 ,执行 相关 指令 ,并 且 将 结果 返回 给 操作 系统 。 这 一 层 通常 称 为 虚拟 
机 监视 器 (Virtual Machine Monitor. VMM)"" ,可 以 实现 各 项 任务 之 间 的 隔离 。 

虚拟 化 技术 还 可 以 用 于 系统 安全 防护 。 由 于 VMM 的 权限 高 于 客户 操作 系统 的 权限 ， 
因此 VMM 可 有 效 发 现 与 防御 客户 操作 系统 内 核 中 的 恶意 行为 。Overshadow55 ,Ink Tag? 、 
TrustPath" LJ & AppShield59 等 ,都 是 在 x86 平台 上 使 用 虚拟 化 技术 保护 系统 安全 的 重 
要 工作 。 

本 章 重 点 介绍 云 存 储 环境 下 的 虚拟 化 技术 ,本 节 将 对 云 存 储 虚拟 化 技术 的 基本 概念 、 分 
类 以 及 虚拟 化 给 云 存储 带 来 的 安全 挑战 进行 分 析 与 介绍 。 
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3.1.1 虚拟 化 技术 概述 


云 计算 与 云 存 储 依赖 虚拟 化 技术 实现 各 类 资源 的 动态 分 配 、 灵 活 调度 . 跨 域 共享 ,从 而 
极 大 地 提高 资源 利用 效率 ,并 使 得 IT 资源 能 够 真正 成 为 公共 基础 设施 ,在 各 行 各 业 得 到 广 
泛 应 用 。 

维基 百科 对 虚拟 化 的 定义 为 : 虚拟 化 是 将 计算 机 物理 资源 如 服务 器 、 网 络 、 存 储 资 源 及 
内 存 等 进行 抽象 与 转换 后 ,提供 一 个 资源 的 统一 逻辑 视图 ,使 用 户 可 以 更 好 地 利用 这 些 资 
源 。 这 些 资源 的 新 的 虚拟 视图 不 受 原 物 理 资源 的 架设 方式 ` 地 理 位 置 或 底层 资源 的 物理 配 
置 的 限制 。 

因此 ,可 以 说 虚拟 化 是 一 种 整合 或 逻辑 划分 计算 存储 以 及 网 络 资源 来 呈现 一 个 或 多 个 
操作 环境 的 技术 ,通过 对 硬件 和 软件 进行 整合 或 划分 ,实现 机 器 仿真 \ 模 拟 . 时 间 共 享 等 9 。 
通常 虚拟 化 将 服务 与 硬件 分 离 ,使 得 一 个 硬件 平台 中 可 以 运行 以 前 要 多 个 硬件 平台 才能 执 
行 的 任务 ,同时 每 个 任务 的 执行 环境 是 隔离 的 。 虚 拟 化 也 可 以 被 认为 是 一 个 软件 框架 ,在 一 
台 机 器 上 模拟 其 他 机 器 的 指令 co 。 

目前 广泛 使 用 的 虚拟 化 架构 主要 有 两 种 类 型 ,根据 是 否 需要 修改 客户 操作 系统 ,分 为 全 
虚拟 化 (Full Virtualization) 和 半 虚 拟 化 (Para-Virtualization) 。 全 虚拟 化 不 需要 对 客户 操 
作 系 统 进行 修改 ,具有 和 良好 的 透明 性 和 兼容 性 ,但 会 带 来 较 大 的 软件 复杂 度 和 性 能 开销 。 半 
虚拟 化 需要 修改 客户 操作 系统 ,因此 一 般 用 于 开源 操作 系统 ,可 以 实现 接近 物理 机 的 性 能 。 
两 种 虚拟 化 技术 的 基本 结构 如 图 3-1 所 示 。 


应 用 程序 应 用 程序 应 用 程序 应 用 程序 
客户 操作 系统 客户 操作 系统 客户 操作 系统 客户 操作 系统 
虚拟 硬件 虚拟 硬件 虚拟 硬件 虚拟 硬件 
虚拟 机 监视 器 (VMM/Hypervisor) 宿主 机 操作 系统 | | 虚拟 机 监视 器 (VMM) 
硬件 (CPU、 内 存 、 硬 盘 等 ) 硬件 (CPU、 内 存 、 硬 盘 等 ) 
(a) 全 虚拟 化 (b) 半 虚 拟 化 


3-1 虚拟 化 平台 的 两 种 基本 结构 


在 两 种 基本 结构 中 ,虚拟 机 监视 器 (Virtual Machine Monitor, VMM) 或 虚拟 机 管理 程 
序 (Hypervisor) 是 虚拟 化 的 核心 部 分 。VMM 是 一 种 位 于 物理 硬件 与 虚拟 机 之 间 的 特殊 操 
作 系 统 ,主要 用 于 物理 资源 的 抽象 与 分 配 、1/O 设备 的 模拟 以 及 虚拟 机 的 管理 与 通信 ,可 以 
提高 资源 利用 效率 ,实现 资源 的 动态 分 配 、 灵 活 调度 与 跨 域 共享 等 。 早 在 1974 年 ,Popek 等 
人 5 就 提出 了 VMM 的 3 个 本 质 特征 。 

CD VMM 提供 了 与 原 机 器 本 质 上 相同 的 程序 执行 环境 。 
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(2) 运行 在 该 环境 中 的 程序 的 性 能 损失 很 小 。 

(3) VMM 拥有 对 系统 资源 的 完全 控制 。 

为 了 提高 性 能 ,只 有 特权 指令 需要 通过 VMM 来 执行 ,所 有 非特 权 指令 都 直接 在 硬件 
上 执行 。 这 些 特权 指令 通常 是 访问 硬件 组 件 或 改变 系统 关键 数据 结构 的 指令 。 处 理 器 需要 
在 管理 模式 中 运行 ,从 而 能 够 执行 这 些 特权 指令 。 

在 全 虚拟 化 架构 中 ,VMM 直接 运行 在 物理 硬件 上 ,通过 提供 指令 集 和 设备 接口 来 提供 
对 上 层 虚 拟 机 的 支持 。 全 虚拟 化 技术 通常 需要 结合 二 进 制 翻译 ** Rd BE BOR 
来 实现 。 大 多 数 运行 在 客户 操作 系统 中 的 特权 指令 被 VMM 捕获 ,VMM 在 这 些 指令 执行 
前 捕获 并 模拟 这 些 指 令 。 对 于 一 些 用 户 模 式 下 无 法 被 捕获 的 指令 ,将 通过 二 进 制 翻 译 技术 
处 理 。 通 过 二 进 制 翻译 技术 ,小 的 指令 块 被 翻译 成 与 该 指令 块 语义 等 价 的 一 组 新 的 指令 。 

在 半 虚 拟 化 架构 中 ,VMM 作为 一 个 应 用 程序 运行 在 客户 操作 系统 上 ,利用 客户 操作 系 
统 的 功能 实现 硬件 资源 的 抽象 和 上 层 虚 拟 机 的 管理 。 半 虚拟 化 技术 需要 对 客户 操作 系统 进 
行 修改 ,特权 指令 被 蔡 换 为 一 个 虚拟 化 调用 (Hypercall) 来 跳 转 到 VMM 中 。 虚 拟 域 可 以 通 
过 Hypercall 向 VMM 申请 各 种 服务 ,如 MMU (Memory Management Unit. 内 存 管理 单 
T) EH I/O 处 理 \ 对 虚拟 域 的 管理 等 。VMM 为 客户 操作 系统 提供 了 一 些 系 统 服务 的 虚 
拟 化 调用 接口 ,包括 内 存 管理 .设备 使 用 及 终端 管理 等 ,以 确保 全 部 的 特权 模式 活动 都 从 客 
户 操作 系统 转移 到 VMM 中 。 

硬件 辅助 虚拟 化 是 全 虚拟 化 的 硬件 实现 。 由 于 虚拟 化 技术 应 用 广泛 ,主流 硬件 制造 商 在 
硬件 层面 提供 了 虚拟 化 支持 ,例如 Intel 的 VT) , AMD-V 和 ARM 的 VEC Virtualization 
Extension) ??  。 当 客户 操作 系统 执行 特权 操作 时 ,CPU 自动 切换 到 特权 模式 ; 完成 操作 后 ， 
VMM 通知 CPU 返回 客户 操作 系统 继续 执行 当前 任务 。 硬 件 虚拟 化 已 被 广泛 应 用 于 服务 
器 平台 。 

硬件 辅助 虚拟 化 不 同 于 半 虚 拟 化 需要 对 操作 系统 进行 修改 ,同时 也 不 需要 二 进 制 翻译 
和 指令 模拟 技术 ,因此 比 全 虚拟 化 和 半 虚 拟 化 技术 效率 都 要 高 。 而 半 虚 拟 化 技术 通过 改变 
客户 操作 系统 的 代码 来 避免 调用 特权 指令 ,从 而 减少 了 二 进 制 翻 译 和 指令 模拟 带 来 的 动态 
开销 ,因此 通常 半 虚 拟 化 比 全 虚拟 化 速度 更 快 。 但 是 半 虚 拟 化 需要 维护 一 个 修改 过 的 客户 
操作 系统 ,因此 也 将 带 来 一 定 的 额外 开销 。 

在 虚拟 化 系统 中 ,有 一 个 特权 虚拟 域 Domain 0。 它 是 虚拟 机 的 控制 域 ,相当 于 所 有 
VMs 中 拥有 root 权限 的 管理 员 。Domain 0 在 所 有 其 他 虚拟 域 启 动 之 前 要 先 启动 ,并 且 所 
有 的 设备 都 会 被 分 配给 这 个 Domain 0, 再 由 Domain 0 管理 并 分 配给 其 他 的 虚拟 域 ,Domain 0 
自身 也 可 以 使 用 这 些 设备 。 其 他 虚拟 域 的 创建 ,启动 、 挂 起 等 操作 也 都 由 Domain 0 控制 。 此 
外 ,Domain 0 还 具有 直接 访问 硬件 的 权限 。Domain 0 是 其 他 虚拟 机 的 管理 者 和 控制 者 ,可 
以 构建 其 他 更 多 的 虚拟 域 ,并 管理 虚拟 设备 ; 它 还 能 执行 管理 任务 ,比如 虚拟 机 的 休眠 、 唤 
醒 和 迁移 等 。 

在 Domain 0 中 安装 了 硬件 的 原始 驱动 ,担任 着 为 Domain U 提供 硬件 服务 的 角色 ,如 
网 络 数据 通信 (DMA 传输 除外 )。Domain 0 在 接收 数据 包 后 ,利用 虚拟 网 桥 技术 ,根据 虚拟 
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网 卡 地 址 将 数据 包 转 发 到 目标 虚拟 机 系统 中 。 因 此 .拥有 Domian 0 的 控制 权限 就 控制 了 
上 层 所 有 虚拟 机 系统 ,这 也 致使 Domain 0 成 为 攻击 者 的 一 个 主要 目标 。 

Xen 是 由 英国 剑桥 大 学 计算 机 实验 室 开 发 的 一 个 开放 源 代码 虚拟 机 监视 器 , 它 在 单个 
计算 机 上 能 够 运行 多 达 128 个 有 完全 功能 的 操作 系统 。Xen 把 策略 的 制定 与 实施 分 离 ,将 
策略 的 制定 ,也 就 是 确定 如 何 管理 的 相关 工作 交 给 Domain 0; 而 将 策略 的 实施 ,也 就 是 确 
定 管理 方案 之 后 的 具体 实施 , 交 给 Hypervisor 执行 。 在 Domain 0 中 可 以 设置 对 虚拟 机 的 
管理 参数 ,Hypervisor 按照 Domain 0 中 设置 的 参数 去 具体 地 配置 虚拟 机 。 

作为 云 计算 与 云 存 储 平台 的 支撑 技术 ,虚拟 化 为 云 存 储 带 来 极 大 的 优势 。 

CD 利用 虚拟 化 技术 , 云 存储 资源 以 服务 的 方式 提供 给 用 户 , 可 以 极 大 地 提高 资源 利用 
效率 ,从 而 降低 成 本 ,节约 能 源 消 耗 。 

(2) 可 以 实现 资源 的 动态 分 配 与 灵活 调度 ,从 而 可 以 根据 实际 需要 实时 进行 配置 ,可 满 
足 不断 变 化 的 业务 需求 。 

(3) 可 以 利用 专业 的 安全 服务 提高 安全 性 。 个 人 用 户 很 难 有 专业 的 安全 知识 ,但 云 服 
务 提供 商 可 以 提供 专业 的 安全 解决 方案 。 

(4) 使 得 云 存 储 具 有 更 高 的 可 扩展 性 ,可 动态 调整 资源 粒度 ,并 动态 进行 扩展 。 

(5) 更 强 的 互 操作 性 , 云 存 储 可 以 实现 平台 无 关 性 ,也 可 以 满足 各 种 接口 和 协议 的 兼 
容 性 。 

(6) 云 服务 提供 商 具备 实现 容 灾 备份 的 条 件 , 可 以 改善 灾难 恢复 效率 。 


3.1.2 虚拟 化 技术 分 类 


按照 被 虚拟 资源 的 类 型 ,虚拟 化 技术 可 分 为 存储 虚拟 化 、 网 络 虚拟 化 、 服 务 器 虚拟 化 、 桌 
面 虚拟 化 和 应 用 虚拟 化 。 

1. 存储 虚拟 化 

存储 网 络 工业 协会 (Storage Networking Industry Association,SNIA) 对 存储 虚拟 化 的 
定义 如 下 。 

(1) The act of abstracting. hiding or isolating the internal function of a storage (sub) 
system or service from applications:compute servers or general network resources for the 
purpose of enabling application and network independent management of storage or data. 
(通过 对 存储 ( 子 ) 系 统 或 存储 服务 的 内 部 功能 进行 抽象 隐藏 或 隔离 ,使 存储 或 数据 的 管理 
与 应 用 、 服 务 器 、 网 络 资 源 的 管理 分 离 , 从 而 实现 应 用 和 网 络 的 独立 管理 。) 

(2) The application of virtualization to storage services or devices for the purpose of 
aggregating ,hiding complexity or adding new capabilities to lower level storage resources. 
Storage can be virtualized simultaneously in multiple layers of a system, for instance to 
create HSM-like systems. (对 存储 服务 或 设备 进行 虚拟 化 ,能 够 在 对 下 一 层 存 储 资源 进行 
扩展 时 进行 资源 合并 、 降 低 实现 的 复杂 度 。 存 储 虚拟 化 可 以 在 系统 的 多 个 层面 实现 ,比如 建 
立 类 似 于 分 级 存储 管理 (Hierarchical Storage Management. HSM) ff) AZ.) 
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存储 虚拟 化 旨 在 将 具体 的 存储 设备 或 存储 系统 与 服务 器 操作 系统 分 离 , 通 过 对 具体 
存储 设备 或 存储 系统 进行 抽象 ,形成 存储 资源 的 逻辑 视图 ,为 存储 用 户 提 供 统一 的 虚拟 
存储 池 。 存 储 虚拟 化 可 以 屏蔽 存储 设备 或 存储 系统 的 复杂 性 ,简化 管理 ,提高 资源 利用 
效率 ; 特别 对 于 异 构 的 存储 环境 ,可 以 显著 改善 资源 的 管理 成 本 ,向 用 户 提 供 透 明 的 存储 
访问 。 

存储 虚拟 化 包括 以 下 3 种 方式 。 

(1) 基于 主机 的 存储 虚拟 化 : 采用 基于 软件 的 方式 实现 资源 的 管理 。 由 于 不 需要 任 
何 额外 硬件 ,实现 简单 ,设备 成 本 低 。 但 由 于 管理 软件 在 主机 上 运行 ,会 占用 主机 的 计算 
资源 ,扩展 性 相对 较 差 ; 同时 ,可 能 由 于 不 同 存储 厂商 软 硬 件 的 兼容 性 带 来 互 操作 性 转换 
开销 。 

(2) 基于 存储 设备 的 存储 虚拟 化 : 通过 设备 自身 的 功能 模块 实现 虚拟 化 。 对 于 用 户 来 
说 ,配置 与 管理 简单 ,用 户 也 可 以 与 存储 设备 提供 商 协调 管理 方法 。 但 由 于 不 同 存储 厂商 功 
能 模块 的 差异 ,对 于 异 构 的 网 络 存 储 环境 ,会 带 来 额外 的 管理 成 本 。 

(3) 基于 网 络 的 存储 虚拟 化 : 在 网 络 设备 上 实现 存储 虚拟 化 功能 。 该 方式 也 存在 异 构 
操作 系统 和 多 供应 商 存 储 环境 之 间 的 互 操作 性 问题 。 

2. 网 络 虚拟 化 

网 络 虚拟 化 是 指 对 网 络 设 备 进行 虚拟 化 , 即 对 传统 的 路 由 器 .交换 机 等 设备 进行 扩展 ， 
在 一 个 物理 网 络 上 模拟 出 多 个 相互 隔离 的 逻辑 网 络 ,使 得 不 同 用 户 使 用 独立 的 网 络 资源 时 
间 片 ,从 而 提高 网 络 资源 利用 效率 ,实现 弹性 的 网 络 。 

网 络 虚拟 化 采用 基于 软件 的 方式 ,从 物理 网 络 元 素 中 分 离 网 络 流量 。 通 常 包 括 虚 拟 局 
域 网 和 虚拟 专用 网 。 虚 拟 局 域 网 可 以 将 一 个 物理 局 域 网 划分 成 多 个 虚拟 局 域 网 ,也 可 以 将 
多 个 物理 局 域 网 的 节点 划分 到 一 个 虚拟 局 域 网 中 ,使 得 虚拟 局 域 网 中 的 通信 类 似 于 物理 局 
域 网 ,并 对 用 户 透 明 ; 虚拟 专用 网 对 网 络 连 接 进 行 了 抽象 ,允许 远程 用 户 连接 单位 内 部 的 网 
络 , 感 觉 就 像 在 单位 网 络 中 一 样 。 

网 络 虚拟 化 平台 不 仅 可 以 实现 物理 网 络 到 虚拟 网 络 的 “一 虚 一 ”映射 ,也 能 实现 物理 网 
络 到 虚拟 网 络 的 “多 虚 一 “一 虚 多 ”映射 。 此 处 的 “一 虚 多 ”是 指 单 个 物理 交换 机 可 以 虚拟 映 
射 成 多 个 虚拟 租户 网 中 的 逻辑 交换 机 ,从 而 被 不 同 的 租户 共享 ;“ 多 虚 一 ”是 指 多 个 物理 交 
换 机 和 链 路 资源 被 虚拟 成 一 个 大 型 的 逻辑 交换 机 , 即 租户 眼中 的 一 个 交换 机 可 能 在 物理 上 
由 多 个 物理 交换 机 连接 而 成 。 

欧洲 电信 标准 组 织 (ETSI) 从 服务 提供 商 的 角度 还 提出 了 网 络 功能 虚拟 化 (Network 
Functions Virtualization, NFV) ,一 种 软件 和 硬件 分 离 的 架构 ,利用 虚拟 化 技术 将 网 络 节点 
的 功能 分 成 几 个 功能 模块 ,然后 以 软件 的 方式 实现 ,使 得 网 络 功能 不 再 局 限于 硬件 架构 。 文 
献 [32] 对 网 络 功 能 虚拟 化 技术 进行 了 综述 ,详细 分 析 并 比较 了 典型 的 解决 方案 ,总 结 了 它们 
的 优势 与 开销 。 
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3. 服务 器 虚拟 化 

服务 器 虚拟 化 是 指 将 虚拟 化 技术 应 用 在 服 
务 器 上 ,将 服务 器 物理 资源 抽象 成 逻辑 资源 ,让 
用 户 不 再 受 限于 物理 资源 。 服 务 器 虚拟 化 的 逻 


(CRM 系 统 ) | (ERP 系统 ) || 在 线 游戏 ) 
(操作 系统 ) || 《操作 系统 ) || 《操作 系统 ) 


Rb ri. 虚拟 机 虚拟 机 虚拟 机 
服务 器 虚拟 化 主要 分 为 3 种 : “一 虚 多 ”多 mem 
虚 一 "和 * 多 虚 多 ”。“ 一 虚 多 "是 指 一 台 服务 器 pm 


被 虚拟 成 多 台 服 务 器 ,即将 一 台 物 理 服 务 器 分 图 3-2 服务 器 虚拟 化 的 逻辑 结构 

割 成 多 个 相互 独立 、 互 不 干扰 的 虚拟 环境 ;“ 多 

虚 一 ”就 是 多 台独 立 的 物理 服务 器 被 虚拟 为 一 台 逻 辑 服务 器 ,使 多 台 服 务 器 相互 协作 ,处 理 
同一 个 业务 ;“ 多 虚 多 ? 则 是 将 多 台 物 理 服务 器 虚拟 成 一 台 逻 辑 服务 器 ,然后 再 将 其 划分 为 
多 个 虚拟 环境 , 即 多 个 业务 在 多 台 虚 拟 服务 器 上 运行 。 

常用 的 服务 器 虚拟 化 平台 包括 VMware 的 vSphere、 微 软 的 Hyper-V、 剑 桥 大 学 的 
Xen、Qumranet 公司 的 KVM 等 。 

4. 桌面 虚拟 化 

桌面 虚拟 化 是 指 将 计算 机 的 终端 系统 (也 称 为 桌面 ) 进 行 虚拟 化 ,用 户 可 以 通过 任何 设 
备 ,在 任何 地 点 、 任 何 时 间 通 过 网 络 访问 属于 个 人 的 桌面 系统 。 

桌面 虚拟 化 可 以 实现 多 种 方式 接 人 ,支持 个 性 化 桌面 、 支 持 多 虚拟 机 、 支 持 主 流 操作 
系统 、 支 持 网 络 存储 空间 的 动态 分 配 ,使 桌面 系统 的 灵活 性 、 安 全 性 、 可 控制 性 和 可 管理 
性 得 到 了 保障 。 但 从 虚拟 化 桌面 系统 的 整体 安全 角度 来 看 ,在 接 入 传输 、 管 理 与 服务 、 
数据 存储 和 用 户 等 各 个 方面 ,都 会 产生 安全 风险 ,忽略 任何 一 个 细节 都 会 导致 全 局 的 安 
全 问题 。 

5. 应 用 虚拟 化 

应 用 虚拟 化 是 指 将 应 用 程序 从 底层 操作 系统 分 离 出 来 ,支持 虚拟 桌面 与 应 用 软件 虚拟 
化 间 的 无 颖 集成 。 应 用 虚拟 化 为 应 用 程序 提供 了 一 个 虚拟 的 运行 环境 ,把 应 用 对 底层 的 系 
统 和 硬件 的 依赖 抽象 出 来 ,可 以 解决 版 本 不 兼容 的 问题 。 

应 用 虚拟 化 把 应 用 程序 的 人 机 交互 逻辑 与 计算 逻辑 分 离开 来 。 在 用 户 访问 一 个 虚拟 化 
后 的 应 用 时 ,用户 计算 机 只 需要 把 人 机 交互 迎 辑 传送 到 服务 器 端 ,服务 器 端 便 会 为 用 户 开 设 
独立 的 会 话 空间 ,应 用 程序 的 计算 逻辑 在 这 个 会 话 空间 中 运行 ,然后 把 变化 后 的 人 机 交互 逻 
辑 传送 给 客户 端 , 并 且 在 客户 端 相应 设备 展示 出 来 ,从 而 使 用 户 获得 如 同 运行 本 地 应 用 程序 
一 样 的 访问 感受 ,因此 极 大 地 方便 了 应 用 程序 的 部 署 、 更 新 和 维护 。 

应 用 虚拟 化 通常 采用 “ 沙 盒 ”技术 实现 安全 性 , 它 在 计算 机 系统 内 部 构建 了 一 个 独立 的 
虚拟 空间 , 当 发 现 程序 的 可 疑 行为 时 让 程序 继续 运行 ,直至 确定 为 病毒 才 终止 ,然后 执行 “ 回 
TR" LI ,将 病毒 的 痕迹 和 动作 抹 去 ,将 系统 恢复 到 正常 状态 。 由 于 病毒 一 直 是 在 虚拟 空间 
运行 ,所 以 不 会 对 真实 的 计算 机 系统 产生 破坏 。 
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3.1.3 虚拟 化 带 来 的 安全 挑战 


虚拟 化 技术 可 以 极 大 地 提高 资源 利用 效率 ,节约 社会 资源 与 能 源 , 这 与 当前 全 球 倡导 的 节 
能 减 排 ` 绿 色 环保 .保护 生 态 、 节 约 资 源 改善 环境 .构建 人 与 自然 和 谐 的 地 球 系统 不 谋 而 合 。 

尽管 虚拟 化 技术 有 很 多 优势 ,但 是 也 带 来 了 很 多 的 安全 问题 。 因 为 云 存储 中 的 虚拟 化 
技术 是 建立 在 网 络 服务 之 上 ,因此 所 有 网 络 安全 问题 在 云 存 储 中 都 存在 。 本 章 主 要 讨论 虚 
拟 化 技术 本 身 带 来 的 安全 问题 。 虚 拟 化 技术 带 来 的 安全 挑战 总 结 如 下 。 

(1) 在 虚拟 化 环境 下 ,不 同 虚拟 主机 间 的 网 络 及 逻辑 边界 被 模糊 化 ,传统 互联 网 环境 下 
的 网 络 防火 墙 ` 网 络 人 侵 检 测 防护 技术 失去 了 作用 。 实 现 虚拟 机 间 高 效 的 安全 隔离 是 一 大 
安全 挑战 。 

(2) 虚拟 化 环境 下 ,“ 一 虚 多 ”多 虚 多 ”导致 攻击 者 可 以 利用 已 有 的 虚拟 主机 使 用 权限 ， 
对 同一 虚拟 化 平台 和 网 络 上 的 其 他 虚拟 主机 进行 非法 访问 、 嗅 探 和 攻击 等 。 实 现 虚 拟 机 间 
高 效 的 认证 与 访问 控制 是 一 大 安全 挑战 。 

(3) 虚拟 化 平台 在 传统 的 “网 络 一 系统 一 应 用 ”的 架构 上 增加 了 虚拟 机 监视 器 (VMM) 
或 虚拟 机 管理 程序 (Hypervisor) ,从 而 增加 了 一 层 软件 栈 , 其 软件 本 身 存 在 的 安全 漏洞 以 及 
增加 的 攻击 点 ,会 导致 更 多 的 安全 风险 。 因 此 ,如 何 更 加 精确 .有效 地 配置 与 管理 VMM 或 
Hypervisor 的 特殊 权限 是 一 大 安全 挑战 。 

(4) 虚拟 化 平台 下 存在 的 安全 漏洞 及 网 络 人 侵 在 不 同 虚 拟 机 之 间 容 易 扩 散 ,导致 单 台 
虚拟 机 的 安全 问题 可 能 影响 整个 虚拟 化 平台 。 如 果 虚 拟 机 隔离 不 当 , 就 有 可 能 出 现 非法 访 
问 其 他 虚拟 机 或 窃听 虚拟 机 间 通 信 的 情况 。 如 何 有 效 限 制 各 类 攻击 的 扩散 及 最 小 化 影响 相 
邻 虚拟 机 是 一 大 安全 挑战 。 

(5) 当 某 一 虚拟 存储 资源 被 一 个 虚拟 机 使 用 过 后 并 重新 分 配给 其 他 虚拟 机 时 ,新 的 虚 
拟 机 可 能 获取 前 一 虚拟 机 的 数据 ,从 而 导致 数据 泄露 风险 。 如 何 有 效 限 制 同一 虚拟 资源 被 
重复 利用 时 带 来 的 安全 风险 是 一 大 安全 挑战 。 


3.2 针对 虚拟 化 的 安全 攻击 


2018 年 11 月 上 映 了 一 部 很 火爆 的 好 莱 坞 大 片 ,名 字 叫 作 ( 毒 液 )(LVENOM) , 讲 的 是 一 
种 外 星 生物 入 侵 人 体 的 故事 。 现 实 的 计算 机 网 络 中 ,也 有 毒液 病毒 攻击 的 存在 。2015 年 5 
月 ,一 个 名 为 “毒液 "VENOMD) 的 QEMU 漏洞 使 数 以 百 万 计 的 虚拟 机 处 于 网 络 攻击 风险 之 
中 。VENOM 是 Virtualized Environment Neglected Operations Manipulation ,虚拟 环境 中 
被 忽视 的 业务 操作 的 缩写 ,这 是 一 种 能 够 影响 QEMU 软盘 控制 器 驱动 程序 的 漏洞 。 
QEMU 是 一 个 指令 级 模拟 器 的 自由 软件 实现 ,被 广泛 用 于 各 大 GNU/Linux 发 行 版 ,包括 
Debian,Gentoo, SUSE, RedHat 和 CentOS 等 。 该 漏洞 可 以 从 受 感染 的 非特 权 虚 拟 机 获得 
宿主 机 的 代码 执行 权限 ,进入 同一 宿主 机 上 的 其 他 虚拟 机 当中 ,获取 对 宿主 机 网 络 的 访问 权 
限 ,并 尝试 获得 证 书 等 敏感 信息 ,实现 虚拟 机 逃逸 攻击 。 攻 击 者 可 以 使 监控 程序 前 溃 , 并 能 


第 3 章 ” 云 存储 虚拟 化 安全 | 35 


够 获得 目标 机 器 以 及 其 上 运行 的 所 有 虚拟 机 的 控制 权 , 它 可 以 执行 任意 代码 ,从 而 威胁 到 全 
球 各 大 云 服务 提供 商 的 数据 安全 。 

2015 年 8 月 ,安全 漏洞 CVE-2015-6815 通过 构造 恶意 的 数据 流 造成 虚拟 机 的 拒绝 服 
务 ,并 持续 占用 CPU 资源 ,从 而 破坏 宿主 机 及 虚拟 机 的 正常 服务 。2015 年 10 月 ,安全 漏洞 
“ 破 天 ” 利 用 PV 模式 运行 的 非特 权 虚 拟 机 实现 虚拟 机 逃逸 ,从 而 控制 Hypervisor, Domain 0 
以 及 宿主 机 上 的 虚拟 机 。2016 年 4 月 .安全 漏洞 “传送 门 "(Dark Portal) 利 用 越界 读 写 内 存 
漏洞 ,可 以 在 宿主 机 中 执行 恶意 命令 。 该 漏洞 存在 于 Xen 和 KVM 系统 的 QEMU 模块 中 
的 VGA 显卡 组 件 , 攻 击 者 可 以 利用 该 漏洞 在 虚拟 机 中 发 动 攻击 ,控制 宿主 机 中 的 进程 执行 
恶意 代码 。 

攻击 者 经 常 利用 虚拟 机 与 一 些 设备 的 依赖 关系 ,如 视频 适配器 、 软 盘 控 制 器 IDE 控制 
器 键盘 控制 器 和 网 络 适配器 等 ,来 获得 对 物理 机 的 访问 ,然后 利用 系统 中 存在 的 漏洞 实施 
攻击 。 以 上 VENOM 就 是 利用 软盘 控制 器 驱动 程序 的 漏洞 实施 攻击 。 更 多 安全 漏洞 可 以 
参考 中 国 国 家 信息 安全 漏洞 共享 平台 公布 的 数据 2 。 本 节 将 对 虚拟 化 环境 下 的 攻击 方法 
进行 分 类 ,介绍 一 些 常用 的 虚拟 机 攻击 方法 。 


3.2.1 虚拟 机 攻击 分 类 


上 一 小 节 列 出 了 虚拟 化 技术 带 来 的 安全 挑战 ,具体 而 言 ,从 攻击 的 角度 ,可 以 将 攻击 方 
式 分 类 如 下 5 。 

1. 虚拟 机 跳跃 

虚拟 机 跳跃 (VM Hopping) 是 指 攻击 者 利用 一 台 虚 拟 机 通过 某 种 方式 获取 同一 个 
VMM 上 的 其 他 虚拟 机 的 访问 权限 。 例 如 ,在 同一 物理 机 上 的 虚拟 机 A 通过 获取 虚拟 机 B. 
的 IP 地 址 或 宿主 机 的 控制 权 ,监控 虚拟 机 B 的 流量 ,进行 流量 攻击 等 操作 ,使 虚拟 机 了 离 
线 , 造 成 通信 中 断 ,停止 服 务 。 虚 拟 机 的 物理 资源 被 多 租户 共享 是 出 现 这 种 攻击 方式 的 根源 
所 在 。 

2. 虚拟 机 逃逸 

虚拟 机 逃逸 (VM Escape) 是 一 种 常见 的 虚拟 机 攻击 方式 。 正 常情 况 下 ,同一 虚拟 化 平 
台 下 的 客户 虚拟 机 之 间 不 能 互相 监视 或 影响 其 他 虚拟 机 及 其 进程 ,但 虚拟 化 漏洞 的 存在 或 
隔离 方式 的 不 正确 可 能 会 导致 隔离 失效 ,使 得 非特 权 虚 拟 机 获得 Hypervisor 的 访问 权限 ， 
并 人 侵 同 一 宿主 机 上 的 其 他 虚拟 机 ,这 种 攻击 方式 称 为 虚拟 机 逃逸 。 虚 拟 机 逃逸 与 虚拟 机 
跳跃 攻击 的 不 同 之 处 在 于 ,虚拟 机 逃逸 攻击 需要 获取 Hypervisor 的 访问 权限 甚至 是 入 侵 或 
破坏 Hypervisor。 

多 租户 技术 是 云 计算 与 云 存 储 的 关键 技术 ,在 基于 多 租户 技术 系统 架构 中 ,多 个 租户 或 
用 户 的 数据 会 存放 在 同一 个 存储 介质 上 甚至 同一 数据 表 里 。 尽 管 云 服 务 提供 商会 使 用 一 些 
数据 隔离 技术 (如 数据 标签 .访问 控制 ) 来 防止 对 混合 存储 数据 的 非 授 权 访问 ,但 攻击 者 利用 
漏洞 攻击 、 旁 路 攻击 等 方法 仍然 可 以 实现 非 授 权 访问 2 。2009 年 3 月 ,Google Docs 就 发 
生 过 不 同 用 户 之 间 文 档 的 非 授权 交互 访问 。 
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3. 远程 管理 缺陷 

虚拟 化 平台 管理 人 员 通 常 使 用 远程 管理 平台 通过 Hypervisor 提供 的 接口 对 虚拟 机 进 
行 管理 ,如 VMware 的 vCenter, XenServer 的 XenCenter。 集 中 管理 降低 了 管理 复杂 度 ,但 
可 能 带 来 如 跨 站 脚本 攻击 、SQL 注入 等 危险 。 

内 部 人 员 可 以 通过 管理 工具 对 虚拟 机 进行 恶意 操作 ,例如 虚拟 机 转 存 (Dump)、 快 照 
(Snapshot) M&F (Live Migration) ,甚至 虚拟 镜像 备份 。 按 攻击 层次 可 以 将 攻击 对 象 分 为 
Hypervisor、 客 户 操作 系统 (GOS) 和 应 用 软件 ,其 中 Hypervisor 和 GOS 是 主要 的 攻击 目 
标 。 内 部 攻击 比 外 部 攻击 更 易 实 施 .成 功率 更 大 ,而 且 不 易 被 发 现 , 因 此 带 来 的 威胁 和 危害 
更 难 控制 。 

4. 拒绝 服务 攻击 

拒绝 服务 攻击 是 指 攻击 者 利用 各 种 攻击 方法 造成 目标 机 不 能 正常 提供 服务 。 同 一 物理 
机 上 的 虚拟 机 共享 资源 ,如 果 攻 击 者 利用 一 台 虚 拟 机 获得 宿主 机 的 所 有 资源 ,导致 其 他 虚拟 
机 没有 资源 可 用 ,就 会 造成 虚拟 化 环境 下 的 拒绝 服务 攻击 。 

5. 虚拟 机 迁移 攻击 

虚拟 机 迁移 时 ,需要 先 迁 移 虚拟 机 的 内 存 等 状态 信息 ,并 传输 虚拟 机 副本 到 新 的 物理 机 
上 恢复 运行 ,攻击 者 有 较 多 的 时 间 获取 敏 感 信息 ,而 且 若 被 迁移 的 虚拟 机 存在 安全 漏洞 , 迁 
移 到 的 物理 机 安全 性 又 不 高 , 则 很 容易 遭受 攻击 。 由 于 攻击 对 象 并 非 真 实 虚 拟 机 ,因此 较 难 
济源 攻击 者 的 身份 。 

6. 虚拟 机 监视 器 攻击 

在 虚拟 化 环境 中 ,虚拟 机 监视 器 是 核心 ,控制 着 整个 虚拟 化 平台 。 由 于 虚拟 机 监视 器 的 
权限 较 高 ,其 安全 问题 显得 尤其 重要 ,一 旦 被 攻破 ,将 造成 整个 虚拟 化 平台 的 崩溃 。 

在 虚拟 化 软件 栈 中 ,VMM 具有 最 高 权限 和 较 小 的 可 信 计 算 基 ,从 而 能 为 虚拟 化 系统 提 
供 安全 监控 和 保护 ,但 同时 也 引入 了 新 的 软件 层 , 带 来 新 的 安全 风险 。 尽 管 这 些 共 享 着 相同 
硬件 资源 的 虚拟 机 在 VMM 的 控制 下 彼此 隔离 ,但 攻击 者 仍然 可 以 通过 流量 分 析 、 旁 路 攻 
击 等 攻击 手段 从 一 台 虚 拟 机 上 获取 其 他 虚拟 机 上 的 数据 9 。 


3.2.2 虚拟 机 攻击 方法 


以 上 是 关于 虚拟 机 攻击 方式 的 分 类 ,但 具体 到 攻击 方法 ,主要 包括 以 下 一 些 攻击 
FEE, 

1. 窃取 服务 攻击 

公共 云 计算 或 云 存 储 环 境 一 般 采 用 多 种 弹性 计 费 模式 ,通常 根据 CPU 虚拟 机 的 运行 
时 间 ,存储 空间 的 大 小 ,网 络 流量 等 进行 费用 计算 。 而 这 种 计 费 模式 的 周期 性 采样 与 低 精度 
的 时 钟 调度 策略 使 得 攻击 者 可 以 利用 虚拟 层 调度 机 制 的 漏洞 ,使 系统 管理 程序 错误 地 检测 
CPU 虚拟 机 的 使 用 时 间 ,实现 窃取 服务 攻击 (Theftrof-Service Attack)。 常 规 的 虚拟 机 调 
度 机 制 没 有 对 调度 的 正确 性 进行 检查 ,使 得 攻击 者 可 以 以 隐蔽 的 方式 占用 他 人 的 云 服务 
资源 。 
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2012 年 ,Varadarajan 等 人 中 提出 的 资源 释放 型 攻击 (Resource-Freeing Attack, RFA) 
能 够 将 合法 用 户 的 虚拟 机 资源 非法 转移 到 攻击 者 的 虚拟 机 ,从 而 达到 与 窃取 服务 攻击 类 似 
的 攻击 效果 。 目 前 还 没有 可 以 完全 避免 这 类 攻击 的 可 行 方案 。 在 RFA 攻击 中 ,攻击 者 通 
过 耗 尽 目标 虚拟 机 的 某 些 关键 资源 ,使 目标 虚拟 机 终止 正在 进行 的 服务 并 释放 已 占用 的 资 
i ,攻击 者 利用 新 释放 的 资源 来 改善 自身 的 性 能 。 他 们 在 Amazon EC2 平台 上 的 实验 结果 
表明 ,攻击 者 借助 RFA 攻击 可 以 获得 13% 的 性 能 提升 。 

Gruschka 和 Jensen 利用 监视 机 制 来 对 比分 析 攻 击 者 与 合法 实例 之 间 的 差异 以 识别 
窃取 服务 攻击 ,从 而 保护 虚拟 机 安全 。Zhou 等 人 吕 则 通过 修改 调度 机 制 来 防御 此 类 攻击 ， 
他 们 提出 的 方法 有 效 地 兼顾 了 计算 效率 .公平 性 与 IO 响应 能 力 。 另 外 一 种 防御 此 类 攻击 
的 方法 是 实施 虚拟 机 最 小 化 策略 ,包括 对 可 信 计 算 基 ] 和 虚拟 机 软件 55 的 最 小 化 ,可 以 减 
少 受 攻击 面 同 时 保护 用 户 隐 私 。 这 些 方法 没有 检测 调度 的 正确 性 ,或 者 是 检测 的 准确 性 比 
较 低 ,都 无 法 有 效 抵御 RFA 攻击 。 

2. 恶意 代码 注入 攻击 

当前 的 虚拟 机 系统 通常 使 用 远程 管理 平台 通过 Hypervisor 提供 的 接口 对 虚拟 机 进行 
管理 ,那么 攻击 者 就 可 以 利用 恶意 实例 代替 系统 服务 实例 处 理 正 常 的 服务 请 求 ,从 而 获得 特 
权 访 问 能 力 ,实施 恶意 代码 注入 攻击 (Malware Injection Attack)。 对 于 一 个 基于 HTTP/ 
HTTPs 的 远程 管理 平台 ,攻击 者 就 可 以 利用 HTTP 的 漏洞 来 进行 恶意 代码 的 攻击 。 例 如 ， 
Xen 的 XenAPI HTTP 接口 就 存在 跨 站 脚本 攻击 (Cross-Site Scripting,XSS) 漏 洞 , 攻 击 者 
可 以 通过 浏览 器 执行 恶意 代码 脚本 。 这 些 恶 意 代 码 可 以 泄露 证 书信 息 和 用 户 数据 ,导致 虚 
拟 机 异常 。 

与 传统 Web 应 用 环境 不 同 , 云 计算 环境 的 虚拟 化 特征 加 剧 了 恶意 代码 注入 攻击 的 安全 
威胁 。 云 端的 服务 迁移 、 虚 拟 机 共存 等 操作 使 得 恶意 代码 的 检测 工作 异常 困难 ,目前 仍然 缺 
少 对 云 服务 实例 完整 性 的 有 效 检查 方法 。 

现 有 防御 恶意 代码 注入 攻击 的 关键 是 对 包含 恶意 实例 的 计算 节点 的 检测 。Liu A AU 
针对 PE(Portable Executable, 可 移植 的 可 执行 文件 ) 文 件 格式 设计 了 可 追溯 的 检测 方案 ， 
在 Hadoop 平台 上 实验 检测 了 恶意 实例 所 在 的 主机 。 他 们 的 方案 具有 较 高 的 检测 率 和 较 低 
的 误 报 率 , 但 该 方案 的 检测 开销 比较 大 ,而 且 在 检测 过 程 中 存在 泄露 隐私 的 风险 。Jarabek 
等 人 5 提出 一 种 轻 量 级 云 移 动 终端 反 恶 意 软件 系统 ,可 以 改善 移动 端 恶意 代码 的 检测 效 
率 。Wei 4 AUS 提出 一 种 基于 确定 有 限 状 态 机 (Deterministic Finite state Automaton, 
DFA) 的 评估 技术 来 检测 加 密 文件 的 内 容 真 实 性 ,同时 用 于 恶意 代码 扫描 。 这 些 方法 没有 
检查 实例 的 完整 性 ,或 者 检测 的 开销 很 大 ,可 检测 的 恶意 代码 种 类 也 比较 有 限 。 

3. 交叉 虚拟 机 边 信 道 攻击 

虚拟 机 之 间 利 用 共同 访问 的 资源 来 实施 恶意 的 攻击 , 称 为 交叉 虚拟 机 边 信道 攻击 
(Cross VM Side Channels Attack) 。 交 叉 虚 拟 机 边 信道 攻击 要 求 攻 击 者 与 目标 虚拟 机 使 用 
相同 的 物理 机 ,或 者 在 地 理 位 置 上 接近 ,因为 在 相同 的 物理 机 上 执行 一 些 任务 ,或 者 能 够 接 
近 物 理 机 ,使 得 攻击 者 有 机 会 获取 目标 虚拟 机 的 行为 ,得 到 一 些 可 用 于 攻击 的 信息 。 比 如 ， 


38 4| 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


攻击 者 可 以 借助 恶意 虚拟 机 访问 共享 硬件 和 缓存 ,然后 执行 预定 的 安全 攻击 ,如 计时 边 信道 
攻击 59 .能 量 消耗 边 信道 攻击 ,高 速 隐藏 信道 攻击 所 ' 们 等 ,最 终 导 致 目标 虚拟 机 的 用 户 
数据 泄露 。 因 为 攻击 者 拥有 使 用 物理 机 的 权限 ,因此 此 类 攻击 一 般 难 以 留 下 痕迹 或 引发 警 
报 , 能 够 很 好 地 躲避 检测 。 

边 信道 攻击 可 以 分 为 3 种 方式 : 基于 时 间 驱 动 (Time Driven) 9? 、 基 于 轨迹 驱动 (Trace 
Driven) P5? 8E FU [6] IRB (Access Driven) 0259 。 基 于 时 间 驱 动 的 攻击 是 攻击 者 重复 地 
检测 被 攻击 者 的 加 密 操 作 所 使 用 的 时 间 ,然后 通过 差分 分 析 等 技术 推断 出 密 钥 等 信息 。 基 
于 轨迹 驱动 的 攻击 通过 持续 地 对 设备 的 电能 损耗 .电磁 发 射 等 情况 进行 监控 ,获取 到 其 敏感 
信息 ,但 是 这 类 边 信道 攻击 需要 攻击 者 能 够 物理 接近 攻击 目标 。 基 于 访问 驱动 的 攻击 是 攻 
击 者 在 执行 加 密 操 作 的 系统 中 运行 一 个 应 用 ,这 个 应 用 用 于 监控 共享 Cache 的 使 用 情况 ,从 
而 获取 密 钥 信 息 。 基 于 访问 驱动 的 攻击 的 优势 是 不 需要 攻击 者 得 到 受害 者 精确 的 时 间 信 
息 。 基 于 Cache 的 边 信道 攻击 不 需要 获取 Hypervisor 等 特权 ,也 不 需要 利用 系统 漏洞 ,只 
需 通 过 对 时 间 损 耗 ,电源 损耗 以 及 电磁 辐射 等 特性 的 监测 和 统计 ,就 可 以 获取 到 其 他 客户 虚 
拟 机 的 数据 。 

Aviram 等 人 提出 的 计时 边 信道 攻击 5 通过 测量 不 同 计算 任务 的 执行 时 间 , 可 以 成 功 
获取 用 户 与 服务 器 的 身份 信息 。Hlavacs 等 人 提出 的 能 量 消耗 边 信道 攻击 ?利用 能 量 消耗 
日 志 开 展 攻 击 , 可 以 帮助 攻击 者 快速 识别 目标 虚拟 机 系统 管理 程序 的 类 型 。2012 年 ,Wu 等 
AUS fe Hé UL (b, x86 系统 中 基于 Cache 的 边 信道 攻击 实现 了 高 速 隐 项 信道 攻击 ,使 得 攻击 者 
能 够 在 数秒 或 数 分 钟 内 从 当前 流行 的 加 密 方法 (RSA、AES 和 DES) 中 获取 到 受害 者 的 密 钥 
信息 。2015 年 ,Liu 等 人 "中 围绕 最 后 一 级 缓存 (Last-Level Cache,LLC) 提 出 了 一 种 新 型 隐 
蔽 信道 攻击 , 它 无 需 依 赖 共享 内 存 以 及 操作 系统 或 虚拟 机 系统 管理 程序 的 漏洞 ,就 可 以 达到 
较 高 的 攻击 成 功率 。Inci 等 人 9 则 是 通过 LLC 来 检测 主机 托管 ,在 Amazon EC2 平台 上 
完整 恢复 了 2048 比特 的 RSA 私 钥 。 

现 阶 段 针 对 交叉 虚拟 机 边 信道 攻击 的 典型 防御 策略 有 密 钥 划分 机 制 59 和 最 小 运行 时 
间 担 保 机 制 53 。 密 钥 划分 机 制 将 用 户 密 钥 划分 为 随机 份额 ,并 以 周期 性 更 新 的 方式 将 各 个 
密 钥 份额 存储 于 不 同 的 虚拟 机 ,有 效 防范 利用 交叉 虚拟 机 边 信 道 攻击 窃取 加 密 密 钥 的 攻击 
行为 。 最 小 运行 时 间 担 保 机 制 优化 虚拟 机 调度 机 制 以 降低 缓存 共享 的 安全 风险 ,规定 在 最 
小 运行 时 间 限 制 内 不 能 预先 占用 CPU 资源 。 

4. 定向 共享 内 存 攻击 

定向 共享 内 存 攻击 (Targeted Shared Memory) 以 物理 机 或 虚拟 机 的 共享 内 存 或 缓存 为 
攻击 目标 ,可 以 造成 用 户 数据 泄露 或 云 服 务 器 信息 泄露 ; 也 可 以 利用 他 进行 其 他 类 型 的 攻 
击 , 比 如 可 以 进行 恶意 代码 注入 攻击 与 边 信道 攻击 。 

2011 年 ,Rocha 和 Correiar 沁 提出 一 个 结合 内 部 攻击 访问 虚拟 机 的 内 存 转 储 数据 的 攻 
击 方案 ,可 以 导致 系统 当前 运行 状态 与 用 户 隐私 信息 的 泄露 。Molina 等 人 "提出 一 个 可 以 
解决 内 存 耗 尽 故障 攻击 的 方案 。 目 前 抵抗 此 类 攻击 的 方法 是 根据 日 志文 件 来 监控 内 存 。 与 
直接 监控 内 核 例 程 的 方法 相 比 ,这 种 检测 方法 的 检测 效果 不 是 很 好 ,而 且 会 干扰 对 共享 内 存 
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的 正常 访问 。 

5. 虚拟 机 回 滚 攻击 

虚拟 机 回 滚 攻击 (VM Rollback Attack) 是 指 通过 非法 恢复 虚拟 机 状态 快照 ,使 系统 回 
滚 到 之 前 的 状态 而 带 来 的 安全 攻击 , 它 可 能 导致 用 户 数据 泄露 ,破坏 云 基础 设施 ,并 且 可 以 
隐藏 攻击 痕迹 。 

在 云 计 算 与 云 存 储 的 虚拟 化 环境 中 ,管理 程序 可 能 由 于 系统 维护 的 原因 , 挂 起 虚拟 机 并 
保存 系统 状态 快照 。 而 且 ,VMM 提供 了 备份 .快照 和 还 原 的 功能 ,如 果 系 统 发 生 故 障 , 可 以 
通过 快照 进行 数据 恢复 与 还 原 , 从 而 保障 系统 的 正常 运行 。 但 是 ,这 些 管理 和 可 靠 性 保障 机 
制 却 带 来 了 一 系列 的 安全 隐患 。 首 先 , 一 些 安全 协议 是 依赖 于 线性 时 间 的 ,重新 访问 以 前 的 
系统 状态 会 违反 这 些 协议 ,可 能 导致 虚拟 机 受到 新 的 攻击 ; 其 次 ,进行 系统 还 原 后 ,之 前 的 
系统 漏洞 又 再 次 全 部 出 现 , 而 且 重新 激活 之 前 被 封锁 的 账号 和 密码 ,导致 很 多 的 安全 风险 。 

2012 年 ,Szefer 等 人 号 提出 禁用 挂 起 恢复 功能 ,从 而 抵御 虚拟 机 回 滚 攻击 。Antunes 
等 人 中 和 Xia 等 人 [中 提 出 利用 虚拟 机 审计 日 志和 状态 快照 的 哈 希 值 作为 合法 性 的 判断 条 
件 , 而 无 需 禁 用 系统 管理 程序 的 基本 功能 。 但 是 ,该 方案 依赖 于 用 户 的 交互 ,需要 终端 用 户 
的 参与 及 协调 ,从 而 降低 了 灵活 性 ,同时 也 干扰 管理 程序 功能 。 

6. 基于 虚拟 机 的 Rootkit 攻击 

Rootkit 的 概念 最 早出 现在 UNIX 中 ,是 指 一 些 收集 工具 ,能 够 获得 管理 员 级 别 的 计算 
机 或 网 络 访问 权限 。 

攻击 者 利用 Rootkit 隐藏 自己 的 踪迹 ,通过 保留 root 访问 权限 ,在 虚拟 机 系统 中 留 下 后 
门 , 这 种 攻击 就 称 为 基于 虚拟 机 的 Rootkit 攻击 (Virtual Machine based Rootkit, VMBR)"*! 。 
VMBR 攻击 会 在 VMM 启动 之 前 将 程序 代码 写 入 内 存 并 运行 ,一 旦 攻击 者 得 逮 , 那 么 所 有 
虚拟 机 系统 都 将 在 攻击 者 的 控制 范围 之 内 。VMBR 攻击 属于 虚拟 机 逃逸 69 的 攻击 类 别 ， 
虚拟 机 通过 应 用 程序 , 绕 过 VMM 的 监控 而 直接 访问 Domain 0, 从 而 获取 Domain 0 的 特 
权 , 而 一 旦 获取 到 了 Domain 0 的 控制 权 后 ,就 可 以 控制 所 有 虚拟 机 。VMBR 攻击 是 利用 所 
发 现 的 漏洞 来 实施 的 ,如 VMware Workstation 6 中 的 安全 漏洞 CVE-2007-449607 ,通过 用 
户 授权 进行 内 存 访问 并 运行 恶意 代码 。 同 时 ,被 控制 虚拟 机 还 可 以 利用 共享 内 存 通信 方式 
对 VMM 进行 病毒 分 析 。 

在 虚拟 机 中 ,如果 Hypervisor 被 Rootkit 控制 ,Rootkit 就 可 以 得 到 整个 物理 机 的 控制 
权 。Rootkit 的 本 质 不 在 于 获取 更 多 的 权限 ,而 是 在 一 个 已 经 被 攻击 的 系统 上 隐藏 攻击 者 的 
存在 。 它 通过 把 恶意 程序 放 在 虚拟 机 上 ,可 以 做 到 对 目标 机 的 完全 监控 ,同时 目标 机 完全 不 
会 知情 。 

VMBR 使 用 一 个 独立 的 服务 执行 各 种 攻击 。 它 对 目标 系统 的 攻击 主要 分 为 3 种 : 一 种 
不 需要 和 目标 系统 交互 ,例如 垃圾 电子 邮件 的 发 送 .DDoS 攻击 、 网 络 钓鱼 等 ; 第 二 种 恶意 服 
务 需 要 监视 目标 系统 的 数据 和 事件 ,通过 修改 VMM 的 设备 模拟 软件 就 能 记录 下 所 有 系统 
级 的 数据 ,比如 用 户 的 操作 、 网 络 流量 等 ,整个 过 程 不 需要 修改 客户 操作 系统 ,所 以 目标 机 完 
全 不 知情 ; 第 三 种 利用 虚拟 机 欺骗 有 管理 员 权 限 的 用 户 执行 安装 程序 来 实现 ,通过 写 好 的 
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后 门 和 病毒 程序 让 用 户 执 行 来 控制 其 他 虚拟 机 。 

微软 公司 和 密歇根 大 学 的 研究 人 员 实现 了 一 种 VMBR 攻击 方法 SubViri?^? 。SubVirt 
依赖 商用 的 虚拟 化 软件 ,如 VM Ware 或 Virtual PC, 来 构建 虚拟 化 环境 。 在 SubVirt 注入 
之 前 ,目标 操作 系统 直接 运行 在 硬件 之 上 ; 注入 之 后 , 则 目标 操作 系统 上 移 ,建立 在 虚拟 化 
软件 VMM 上 的 一 个 虚拟 机 上 。VMBR 的 组 件 由 虚拟 化 软件 VMM .主机 操作 系统 以 及 其 
上 运行 的 恶意 软件 组 成 。 恶意 程 序 运行 在 VMM 或 主机 操作 系统 中 ,与 目标 操作 系统 隔离 
开 , 从 而 使 得 目标 操作 系统 中 的 入 侵 检测 软件 无 法 发 现 和 修改 该 恶意 程序 。 同 时 ,VMM 能 
够 掌握 目标 操作 系统 上 的 所 有 事件 和 状态 , 当 VMBR 修改 这 些 事件 和 状态 时 ,由 于 它 完 
控制 了 面向 目标 操作 系统 和 应 用 程序 的 虚拟 硬件 ,目标 操作 系统 将 无 法 发 现 这 些 修改 。 

检测 及 防御 VMBR 攻击 的 方法 如 下 。 

CD 计时 的 方法 ,通过 检测 一 个 指令 的 执行 时 间 , 判 断 该 指令 是 否 存在 VMBR 攻击 。 
Rhee 等 人 9 提出 利用 预 设 的 安全 策略 ,通过 监视 内 核 的 内 存 访问 来 防御 动态 数据 内 核 
VMBR 攻击 ; Riley 等 人 "提出 了 通过 内 存 影 子 来 检测 内 核 VMBR 攻击 。 

(2) 通过 可 信和 模块 (Trusted Platform Module, TPM) R% {F} VMM"O)) 。 通 过 启动 过 
程 的 完整 监测 ,可 以 防止 Rootkit 的 隐蔽 植 人 。TPM 的 设计 不 但 可 以 抵御 VMBR 的 攻击 ， 
也 可 以 防御 其 他 破坏 VMM 完整 性 的 攻击 。 

7. DMA 攻击 

在 虚拟 机 中 有 一 种 数据 传输 不 受 VMM 控制 , 它 就 是 DMA(Direct Memory Access, 直 
接 内 存 访问 ) 传 输 。DMA 攻击 就 是 在 DMA 传输 过 程 中 将 恶意 代码 输入 到 目标 机 ,从 而 实 
现 攻击 的 。 

在 DMA 传输 时 ,虚拟 机 通过 Domain 0 与 硬件 建立 DMA 连接 ,Domain 0 将 数据 控制 
权 交 由 虚拟 机 进行 数据 传输 。 在 数据 传输 的 过 程 中 ,数据 将 直接 从 网 卡 传输 到 目的 虚拟 机 
中 ,能 够 极 大 地 提高 大 数据 量 的 传输 效率 。 但 是 ,这 种 数据 传输 方式 为 攻击 者 攻击 系统 提供 
了 捷径 ,攻击 者 可 以 利用 DMA 传输 将 恶意 代码 或 病毒 文件 等 传人 没有 安全 防范 的 目标 机 
中 ,实现 其 攻击 目标 。 

除了 上 述 的 虚拟 机 攻击 方法 ,虚拟 机 中 的 隐蔽 通道 也 是 较 难 解决 的 安全 问题 之 一 。 虚 
拟 机 中 的 隐蔽 通道 通常 是 系统 和 用 户 不 知道 的 传输 通道 ,比如 基于 CPU 负载 的 隐蔽 通 
i8 U? ,攻击 者 利用 CPU 负载 传输 私密 数据 流 , 既 能 很 隐蔽 地 传输 数据 ,又 能 成 功 地 避免 检 
测 ,Salaun 中 研究 了 虚拟 机 Xen 上 可 能 存在 的 隐蔽 通道 ,从 XenStore 的 机 制 、 共 享 协议 、 驱 
动 加 载 、 数 据 传输 等 方面 分 析 了 可 能 存在 的 隐蔽 通道 。 隐 项 通道 的 建立 和 数据 传输 通常 需 
要 * 同 伙 的 存在 ”, 即 接收 者 和 发 送 者 的 存在 。Cheng 等 人 5c9 根 据 这 一 特征 ,在 中 国 墙 
(Chinese Wall) 安 全 模型 上 进行 了 改进 ,利用 限制 冲突 集 数据 传输 来 防御 隐蔽 通道 。 

恶意 代码 注入 攻击 交叉 虚拟 机 边 信 道 攻击 .定向 共享 内 存 攻击 和 虚拟 机 回 滚 攻击 都 会 
造成 敏感 信息 泄露 或 未 授权 访问 私有 云 资 源 。 以 数据 泄露 为 例 , 攻 击 者 可 以 通过 边 信 道 和 
虚拟 机 逃逸 等 攻击 方式 窃取 其 他 虚拟 机 的 数据 。 在 此 需要 强调 的 是 ,这 些 安全 威胁 并 不 是 
独立 存在 的 ,它们 可 以 相互 依托 并 相互 转化 。 据 文献 [34] 统 计 , 虚 拟 化 平台 的 漏洞 主要 是 权 
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限 许可 和 访问 控制 、 信 息 泄露 以 及 缓冲 区 溢出 ,而 传统 环境 下 的 安全 漏洞 主要 是 拒绝 服务 、 
跨 站 脚本 与 SQL 注入 漏洞 。 


3.3 虚拟 机 安全 机 制 


针对 以 上 攻击 方法 ,虚拟 机 必须 采取 相应 的 安全 机 制 。 本 节 重 点 介绍 虚拟 机 访问 控制 
和 虚拟 机 隔离 这 两 种 最 常见 的 安全 机 制 。 


3.3.1 虚拟 机 访问 控制 


访问 控制 通过 限制 主体 对 客体 的 访问 权限 与 范围 ,保证 客体 不 被 非法 访问 。 云 存储 服 
务 支持 海量 的 用 户 接 入 ,每 个 用 户 都 有 为 其 提供 服务 的 虚拟 机 ,如 何 区 分 不 同 用 户 对 不 同 虚 
拟 机 的 访问 权限 ,需要 通过 虚拟 机 的 访问 控制 机 制 来 实现 。 

在 虚拟 化 软件 栈 中 ,从 VMM, 客户 操作 系统 到 应 用 软件 ,高 优先 级 的 软件 层 能 够 无 限 
制 地 访问 低 优先 级 软件 层 的 代码 和 数据 ,这 种 机 制 威胁 着 整个 软件 栈 的 安全 。 因 此 ,需要 利 
用 访问 控制 机 制 来 阻止 非法 用 户 访问 受 保护 的 数据 资源 ,同时 允许 合法 用 户 访 问 受 保护 的 

另外 ,很 多 应 用 需要 进行 虚拟 机 间 的 通信 ,可 能 带 来 非法 访问 、 边 信道 攻击 等 安全 风险 。 
云 存 储 的 动态 弹性 计算 ,虚拟 机 可 以 根据 性 能 进行 动态 的 迁移 ,也 需要 研究 迁移 过 程 中 对 数 
据 的 访问 控制 。 文 献 [75] 和 [76] 都 对 虚拟 机 中 的 访问 控制 技术 做 了 详细 的 曾 述 。 

虚拟 机 的 访问 控制 策略 一 般 有 以 下 两 种 方案 : 一 种 是 每 个 虚拟 机 各 自 部 署 访 问 控 制 策 
We. 一 种 是 集中 式 存 储 访问 控制 策略 。 第 一 种 方案 的 可 扩展 性 比较 差 ,管理 烦琐 ; 第 二 种 
方案 将 访问 控制 策略 部 署 在 Hypervisor 上 ,可 以 实现 统一 配置 与 管理 。 

王 于 丁 等 人 "将 虚拟 机 下 多 租户 的 访问 控制 分 为 以 下 3 类 进行 介绍 。 

1. 通过 多 租户 的 隔离 实现 访问 控制 

通过 对 多 租户 的 隔离 实现 访问 控制 ,主要 是 利用 虚拟 机 下 的 隔离 机 制 ,增加 访问 控制 策 
略 并 执行 访问 控制 。 

2010 年 , Hao 等 人 中 提出 将 网 络 访问 控制 策略 集中 存储 在 一 个 中 心服 务 器 上 ,在 转发 
交换 机 上 强制 执行 。 客 户 网 络 的 隔离 通过 虚拟 局 域 网 来 实现 , 当 分 组 是 发 往 同 一 个 虚拟 局 
域 网 时 , 则 不 执行 访问 控制 策略 而 直接 发 往 目 的 地 虚拟 机 ,以 避免 因 访 问 控制 带 来 不 必要 的 
额外 开销 ; 若 分 组 是 发 送 到 不 同 的 虚拟 局 域 网 , 则 根据 访问 控制 策略 进行 判定 转发 。 

2013 年 ,Factor 等 人 [中 提出 一 个 多 辑 隔 离 多 租户 的 方案 SLIM (Secure Logical Isolation 
for Multi-tenancy) ,可 以 极 大 地 提高 系统 物理 隔离 的 安全 性 。SLIM 采用 租户 资源 、 云 存储 
系统 以 及 租户 之 间 逻 辑 隔离 的 原则 ,在 OpenStack 上 实验 验证 了 方案 的 有 效 性 。 

Li 等 人 "提出 利用 云 服务 提供 商 和 租户 的 安全 职责 分 离 实现 多 租户 访问 控制 , 云 服务 
提供 商 负责 租户 的 添加 、 删 除 和 管理 以 及 相关 的 安全 问题 ,而 由 租户 自己 来 管理 自身 的 访问 
控制 。 比 如 ,在 PaaS 服务 模型 中 , 云 服务 提供 商 提 供 一 个 安全 的 计算 平台 和 开发 环境 , 租 
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户 自己 要 确保 应 用 程序 安全 可 靠 ; 在 IaaS 服务 模型 中 , 云 服务 提供 商 为 客户 提供 可 信和 的 基 
础 设施 ,租户 自己 要 确保 相关 的 实例 和 镜像 安全 。 

Almutairi 等 人 5 加 提出 一 种 分 布 式 安全 架构 .该 架构 由 3 部 分 组 成 , 即 虚拟 资源 管理 器 
(Virtual Resource Manager, VRM) , 访问 控制 机 制 (采用 基于 角色 的 模型 ) 和 云 服 务 提供 
商 。 由 云 服务 提供 商 在 多 租户 环境 中 实施 的 服务 等 级 协议 (Service Level Agreement, 
SLA) , 云 间 的 通信 、 租 户 在 同一 层 或 不 同 层 的 通信 以 及 内 部 云 通信 都 采用 这 种 分 布 式 安全 
架构 ,他 们 还 对 这 种 安全 架构 进行 了 安全 性 证 明 。 

2. 利用 RBAC 模型 进行 访问 控制 

基于 角色 的 访问 控制 (Role-Based Access Control, RBAC) 是 一 种 经 典 的 访问 控制 模 
型 , 它 将 用 户 分 类 为 不 同 的 角色 ,给 予 不 同 角 色 不 同 的 权限 。 

Tang 等 人 "提出 在 多 租户 认证 系统 的 基础 上 引入 RBAC 访问 控制 模型 ,增加 对 不 同 
租户 的 信任 条 件 ,并 对 多 租户 之 间 的 信任 进行 形式 化 分 析 。 

Yang 4$ AU? 提出 并 设计 了 基于 角色 的 多 租户 访问 控制 方案 (Role-Based Multi- 
Tenancy Access Control,RB-MTAC) ,基于 用 户 的 身份 管理 来 确定 适合 的 角色 。 该 方案 可 
以 有 效 地 管理 租户 的 访问 权限 来 实现 应 用 程序 的 独立 和 数据 的 隔离 ,并 可 以 提高 云 环境 中 
多 租户 服务 的 安全 性 和 隐私 性 。 

3. 通过 Hypervisor 实现 虚拟 机 的 访问 控制 

Hypervisor 在 虚拟 机 中 具有 和 较 高 的 权限 ,可 以 利用 对 Hypervisor 的 信任 ,由 Hypervisor 来 
实现 对 虚拟 机 的 访问 控制 。 

Lucian 等 人 5 提出 一 种 基于 Hypervisor 的 多 租户 访问 控制 机 制 CloudPolice。 他 们 给 
出 了 一 种 处 理 可 伸缩 性 的 方法 .可 以 让 Hypervisor 动态 地 协调 它 所 承载 的 虚拟 机 的 访问 控 
制 策略 。Hypervisor 根据 源 虚 拟 机 到 目的 虚拟 机 之 间 的 具体 通信 状况 来 确定 访问 控制 策 
略 的 分 布 ,这些 访问 控制 策略 包括 租户 隔离 .租户 间 通 信 、 租 户 间 公平 共享 服务 和 费 率 限制 
等 。 该 方法 的 主要 思想 是 : 当 数据 流 到 来 的 时 候 , 由 Hypervisor 在 数据 流 到 达 目 的 虚拟 机 
之 前 ,发 送 一 个 访问 控制 策略 数据 包 ,来 检测 该 数据 流 是 否 符合 访问 策略 ,如果 不 符合 , 则 请 
求 源 Hypervisor 停止 或 减少 这 种 类 型 的 数据 流 。 该 方法 具有 较 好 的 伸缩 性 和 健壮 性 。 

Anil 等 人 ! 鸣 比 较 了 基于 虚拟 化 的 多 租户 架构 与 基于 操作 系统 多 租户 的 架构 ,两 种 架构 
都 可 以 在 虚拟 机 的 Hypervisor 上 隔离 用 户 , 并 通过 一 个 共享 的 操作 系统 实现 强制 访问 控 
制 。 研 究 表明 ,基于 操作 系统 多 租户 的 架构 可 以 更 加 有 效 地 管理 虚拟 机 的 安全 。 

目前 的 虚拟 化 技术 已 经 比较 成 熟 , 多 租户 之 间 的 访问 控制 策略 一 般 和 虚拟 机 内 部 结构 
和 工作 状态 紧密 相关 ,需要 全 面 了 解 CPU 虚拟 化 .内存 虚拟 化 .1/O 虚拟 化 的 技术 ,才能 在 
此 基础 上 更 好 地 改善 其 安全 性 。 

上 述 方案 利用 访问 控制 来 对 内 存 的 安全 进行 防护 ,Szefer 和 Lee" 提出 的 HyperWall 
则 利用 CIP( Confidentiality and Integrity Protection) 表 对 恶意 Hypervisor 和 直接 内 存 访问 
(DMA) 攻 击 进行 防范 。 

HyperWall 利用 CIP 表 对 每 个 物理 页 标注 Hypervisor 和 DMA 的 访问 权限 ,并 为 CIP 
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表 提 供 一 个 可 信 的 执行 环境 和 存储 区 域 。 当 Hypervisor 或 DMA 访问 内 存 时 ,HyperWall 
会 检查 CIP 表 ,查看 其 是 否 有 权 进 行 访问 。 在 虚拟 机 运行 过 程 中 ,用 户 也 可 以 进行 虚拟 机 
安全 验证 ,查看 是 否 存 在 非法 访问 自己 虚拟 机 的 内 存 ,从 而 为 入 侵 检测 系统 和 恶意 行为 检测 
等 提供 依据 。 不 过 ,HyperWall 要 求 用 户 熟 悉 虚拟 机 系统 的 内 存 部 署 ,能 正确 设 定 每 个 页 面 
的 访问 权限 ,同时 也 存在 数据 残留 问题 , 即 对 于 异常 终止 的 虚拟 机 ,不 能 对 其 内 存 进 行 安 全 
回收 。 此 外 ,HyperWall 保护 的 对 象 是 客户 虚拟 机 ,对 于 虚拟 机 内 部 的 安全 威胁 则 是 无 能 为 
力 的 。 

Elwell 等 人 [ 洒 提 出 一 种 非 包 含 性 的 (独占 ) 内 存 访问 权限 机 制 (Non-Inclusive Memory 
Permissions, NIMP), 5j HyperWall 的 思路 不 同 ,NIMP 的 保护 对 象 可 细 化 到 应 用 程序 , 主 
要 是 防止 跨 层 攻击 ,使 得 高 特权 层 的 软件 只 能 按照 低 特权 层 软件 预期 的 访问 规则 进行 访问 ， 
以 满足 用 户 的 安全 需求 。 在 NIMP 中 ,每 个 物理 页 拥有 一 个 2 字 节 的 权限 位 集合 ,其 中 的 9 
bits 用 来 表明 Hypervisor、 内 核 和 进程 对 该 页 的 访问 权限 ,这 些 访问 权限 是 在 分 配 页 面 的 时 
候 由 安全 硬件 模块 依据 权限 规则 设 定 的 。 访 存 指令 会 对 该 权限 规则 进行 相应 扩展 ,添加 该 
访 存 指令 应 具有 的 访 存 权限 ,从 而 保证 了 低 特 权 层 (如 GOS) 的 内 存 页 不 能 被 高 特权 层 软 件 
(如 Hypervisor) 访 问 。 在 CPU 的 特殊 Cache 中 存在 7 条 权限 转换 规则 ,以 此 保证 权限 不 能 
被 非法 转换 。 

这 两 种 方案 都 需要 对 内 核 进行 修改 ,HyperWall 需要 修改 Hypervisor, 而 NIMP 对 进 
程 .GOS 和 Hypervisor 都 要 修改 。NIMP 只 是 一 种 特殊 类 型 的 方案 ,该 方案 针对 的 是 特定 
攻击 类 型 ,并 不 能 作为 通用 方案 防护 大 部 分 攻击 。 而 且 , 在 NIMP 方案 中 ,可 以 实现 跨 域 访 
问 攻击 。 假 设 同 一 宿主 机 中 和 运行 的 两 个 虚拟 机 ,其 系统 分 别 为 GOS1 和 GOS2, GOSI 的 
指令 具有 读 写 (RW) 权 限 , 而 GOS2 的 内 存 页 的 内 核 权 限 是 RW。 利 用 重 映射 使 得 GOS1 
可 以 访问 GOS2 的 页 ,从 而 实现 跨 域 访问 。Payne 等 人 中 提出 分 层 的 访问 控制 模型 ,用 以 
简化 访问 控制 模块 中 的 主客 体 关 系 链 。 


3.3.2 虚拟 机 隔离 


早 在 1973 年 ,Lampsoncs5] 就 认识 到 了 隔离 的 重要 性 ,而 且 在 早期 的 计算 机 设计 中 , 比 
如 Multics"? 和 Cambridge CAP 计算 机 中 已 经 使 用 硬件 特性 实现 地 址 隔离 。 随 着 对 计算 
机 系统 的 安全 性 要 求 越 来 越 高 ,组件 隔离 成 为 计算 机 系统 的 一 项 基本 的 安全 策略 ,也 是 实现 
更 高 级 别 系统 安全 策略 的 基础 。 比 如 在 处 理 器 内 有 保护 内 存 的 硬件 ,如 内 存 管理 单元 
(Memory Management Unit, MMU) ,可 以 分 配 不 同 的 虚拟 地 址 给 不 同 的 进程 以 实现 进程 
隔离 。 操 作 系统 或 管理 程序 可 以 利用 这 些 硬件 组 件 和 自身 的 软件 技术 ,在 软件 组 件 之 间 实 
现 一 种 隔离 策略 。 比 如 操作 系统 内 核 必须 与 驻 留 的 应 用 程序 隔离 ,这 样 操作 系统 就 可 以 控 
制 和 实施 WO 资源 的 访问 控制 策略 。 如 果 没有 这 种 隔离 ,一 个 恶意 的 应 用 程序 就 可 以 破坏 
内 核 ,进而 阻止 内 核 运 行 任何 其 他 的 安全 服务 或 者 窃取 其 中 的 安全 敏感 信息 "9 。 

在 多 租户 以 及 多 实例 的 虚拟 化 环境 中 ,虚拟 机 之 间 的 隔离 程度 是 虚拟 化 平台 的 安全 性 
指标 之 一 。 通 过 隔离 机 制 ,虚拟 机 之 间 独 立 运行 、 互 不 干扰 。 
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文献 L90] 对 系统 安全 隔离 技术 做 了 详细 的 阐述 ,其 中 将 系统 隔离 从 实现 的 层次 划分 为 
3 类 , 即 硬件 隔离 技术 、 软 件 隔离 技术 及 系统 级 隔离 技术 。 但 具体 到 虚拟 机 隔离 技术 ,我 们 
将 其 分 为 两 类 , 即 硬件 隔离 技术 与 系统 级 隔离 技术 。 

1. 硬件 隔离 技术 

硬件 隔离 技术 利用 硬件 本 身 提 供 完整 性 监控 保护 ,从 而 为 虚拟 化 环境 提供 一 个 非常 安 
全 的 隔离 运行 环境 。 为 了 保证 系统 中 敏感 信息 的 安全 ,在 进行 系统 安全 设计 时 ,考虑 使 用 专 
用 的 硬件 模块 来 提供 一 个 相对 安全 的 硬件 隔离 环境 。 在 此 安全 环境 中 ,可 以 执行 敏感 程序 、 
实施 访问 控制 .对 敏感 数据 进行 加 密 处 理 等 。 可 以 要 求 所 有 程序 的 运行 要 通过 此 模块 的 认 
证 ,这 样 就 可 以 将 系统 中 的 敏感 数据 、 密 钥 等 存储 在 此 模块 中 。 

使 用 硬件 技术 实现 隔离 ,一般 由 处 理 器 或 与 主 处 理 器 连接 的 专用 设备 提供 隔离 功能 。 
通常 ,有 两 种 实现 硬件 隔离 的 方案 ,一 种 是 在 进行 芯片 设计 时 设计 一 个 专门 的 硬件 模块 来 处 
理 安全 事务 ,一 种 是 在 进行 芯片 设计 时 在 芯片 内 集成 一 个 专门 的 硬件 模块 。 

第 一 种 方案 包括 通常 使 用 的 智能 卡 以 及 手机 中 使 用 的 SIM (Subscriber Identification 
Module, 用 户 身份 识别 模块 ) 卡 。 在 当前 智能 计算 时 代 , 几乎 人 人 手中 都 持 有 至 少 一 个 智能 
设备 ,其 中 最 广泛 使 用 的 智能 卡 在 移动 网 络 中 作为 用 户 身份 的 标识 ,也 作为 信用 卡 的 安全 组 
件 , 可 以 实现 各 种 类 型 的 安全 认证 。 另 外 一 种 实现 隔离 的 计算 设备 是 经 典 的 IBM 4758 加 
密 协 处 理 器 ,可 以 在 通用 计算 机 中 处 理 金融 类 高 安全 性 应 用 中 的 数据 加 解密 ,将 其 非 易 失 性 
存储 隔离 在 防止 鼻 改 的 空间 内 。 

第 二 种 方案 在 芯片 设计 时 在 芯片 内 集成 一 个 专门 的 硬件 模块 ,又 可 以 分 为 两 类 : 一 类 
是 管理 加 密 操作 和 密 钥 存 储 的 硬件 安全 模块 ; 另 一 类 是 专门 为 安全 子 系统 设计 的 通用 处 理 
器 一 一 通过 在 主 处 理 器 中 内 置 通用 处 理 引 擎 ,来 专门 为 安全 子 系 统 提供 专用 的 安全 处 理 模 
块 。 该 方案 主要 是 使 用 定制 的 硬件 逻辑 来 阻止 未 授权 软件 对 系统 敏感 资源 的 访问 。 

IO 内 存 管理 单元 (Input/Output Memory Management Units, IOMMU)U? nf Wi 
备 DMA 地 址 转换 到 物理 地 址 ,限制 设备 只 能 访问 得 到 授权 的 部 分 内 存 。 因 此 ,操作 系统 可 
以 利用 IOMMU 来 隔离 设备 的 驱动 程序 ,虚拟 机 也 可 以 利用 TOMMU 来 限制 硬件 对 虚拟 机 
的 直接 访问 。 

硬件 隔离 技术 也 存在 一 些 局 限 性 ,因为 修改 硬件 是 一 个 长 期 的 任务 ,需要 产业 界 达 成 一 
致 共识 才 可 能 实现 。 

2. 系统 级 隔离 技术 

系统 级 隔离 技术 是 结合 硬件 的 安全 扩展 和 可 信和 软件 在 系统 中 构建 一 个 相对 安全 可 靠 的 
可 信 执 行 环境 (Trusted Execution Environment, TEE) 9? ,以 将 可 信 程 序 或 敏感 数据 保护 
在 该 隔离 环境 中 ,同时 也 可 以 限制 恶意 代码 的 扩散 。 

2008 年 ,Chen “ AU? #2 Ht OverShadow, 利 用 VMM 为 虚拟 机 中 的 指定 程序 提供 了 一 
个 私密 运行 空间 ,在 这 个 运行 空间 中 运行 的 程序 ,其 内 存 是 不 能 被 操作 系统 或 其 他 程序 访问 
的 。 这 种 内 存 的 隔离 性 保证 了 数据 在 内 存 中 的 高 度 私密 性 ,即使 整个 OS 受到 损坏 也 能 为 
应 用 数据 提供 保护 。 另 一 方面 ,程序 使 用 的 数据 在 磁盘 上 的 存储 是 密 文 形式 的 。 虚 拟 机 监 
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控 器 在 读 写 数 据 时 会 分 别 为 数据 进行 解密 和 加 密 。 结 合 了 上 述 两 项 保护 ,用 户 数 据 在 存储 
设备 和 内 存 中 都 得 到 了 虚拟 机 监控 器 的 保护 。 

Azab 等 人 中 提出 一 种 基于 TrustZone 的 实时 内 核 保 护 机 制 (TrustZone-based Real- 
time Kernel Protection, TZ-RKP) ,采用 某 种 技术 来 限制 普通 程序 对 某 些 特权 系统 功能 的 
控制 ,可 以 有 效 地 阻止 修改 或 注入 二 进 制 文件 的 攻击 ,也 可 以 阻止 修改 系统 内 存 布局 的 
攻击 。 

Sun 等 人 史 9 提出 一 种 基于 TrustZone 隔离 环境 的 保护 动态 口令 (On Time Password, 
OTP) 安 全 的 机 制 TrustOTP, 能 够 在 OS 遭受 损害 甚至 毁坏 的 情况 下 保护 OTP 的 完整 性 。 
Li 等 人 中 基于 TrustZone 平台 提出 一 种 在 线 移动 广告 认证 的 安全 机 制 AdAtterster。 
Yang 等 人 中 基于 TrustZone 机 制 提出 一 种 安全 有 效 的 直接 匿名 认证 (Direct Anonymous 
Attestation,DAA) 机 制 DAA-TZ。 这 些 研究 都 是 利用 系统 级 安全 隔离 环境 来 隔离 OS 中 的 
敏感 应 用 ,防止 其 中 敏感 操作 和 关键 数据 遭受 恶意 攻击 。 以 上 研究 表明 ,基于 系统 级 隔离 环 
境 实现 应 用 程序 的 保护 已 然 是 一 种 比较 行 之 有 效 的 方法 。 

Steinberg 等 人 中 提出 一 个 简单 的 瘦 虚 拟 化 架构 NOVA ,通过 减少 攻击 面 来 改善 系统 
的 整体 安全 性 。Lacombe 等 人 5 在 硬件 虚拟 化 的 基础 上 提出 了 一 个 轻 量 级 的 虚拟 机 
Hytux, 它 拥有 比 Linux 内 核 更 高 的 权限 ,从 而 能 保证 Hytux 中 的 防护 系统 内 核 的 安全 机 
制 免 遭 恶意 攻击 。 

Lange 等 人 中 基于 先进 的 微 内 核 提 出 一 个 通用 操作 系统 框架 L4Android, 它 允许 虚拟 
机 与 安全 应 用 并 行 运行 ,同时 确保 了 它们 之 间 的 安全 隔离 。Klein 等 人 中 提出 一 个 对 操作 
系统 内 核 进行 验证 的 形式 化 方法 seL4, 用 于 检验 由 于 软件 漏洞 等 产生 的 一 些 安全 隐患 。 该 
方法 可 以 对 微 内 核 的 某 些 安全 性 质 进行 全 面 、 严 格 的 检查 。 

Ren 等 人 9 中 提出 为 安全 敏感 型 应 用 提供 一 个 安全 执行 环境 的 方案 AppSec, 能 够 根据 
应 用 程序 的 意图 保护 用 户 的 私有 数据 和 人 机 交互 数据 。AppSec 将 系统 中 应 用 分 为 高 特权 
和 低 特权 两 种 类 型 ,只 有 受 保护 的 高 特权 进程 能 够 访问 到 自身 窗口 中 的 数据 。AppSec 利用 
隔离 机 制 防止 用 户 与 系统 设备 交互 的 数据 被 恶意 内 核 截获 ,并 且 能 够 在 运行 时 通过 存储 在 
Hypervisor 中 的 哈 希 值 对 共享 动态 链接 程序 进行 验证 ,保证 共享 动态 链接 库 不 被 算 改 。 

Rutrowska 等 人 Do 提出 一 种 利用 x86 系统 的 CPU 系统 管理 模式 (System Management 
Mode,SMMD) 来 监控 虚拟 机 完整 性 的 机 制 HyperGuard。Wang 等 人 Do 提出 一 个 硬件 辅助 
的 完整 性 监视 器 HyperCheck ,利用 x86 系统 的 CPU SMM 安全 地 生成 和 传输 被 保护 主机 
的 状态 信息 到 外 部 服务 器 ,可 以 检测 出 影响 Xen 虚拟 机 和 传统 操作 系统 完整 性 的 Rootkit， 
从 而 保护 主机 的 VMM 的 完整 性 。 与 HyperGuard 相 比 ,HyperCheck 有 更 好 的 监控 性 能 。 

Azab 等 人 0 中 提出 一 个 度量 系统 中 运行 的 Hypervisor 或 其 他 最 高 权限 软件 层 的 完整 
性 的 系统 架构 HyperSentry。HyperSentry 通过 引入 一 个 与 Hypervisor 隔离 的 组 件 来 评估 
运行 的 Hypervisor 的 完整 性 ,而 且 可 以 保存 度量 上 下 文 , 从 而 可 以 恢复 一 个 成 功 的 完整 性 
度量 所 涉及 的 输入 信息 。Lengyel 4A 提出 一 个 基于 TrustZone 的 多 层次 安全 的 隔离 
环境 ,用 于 检测 Hypervisor 的 完整 性 。 它 可 以 对 关键 组 件 载 和 及 运行 时 的 完整 性 进行 验 
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证 ,也 可 以 对 虚拟 机 异常 状态 进行 自 查 。 

这 些 系统 都 可 以 对 内 核 和 虚拟 机 的 完整 性 执行 周期 性 检查 ,但 是 所 有 的 攻击 都 只 能 在 
攻击 发 生 后 才能 被 检测 到 ,如果 一 些 恶意 程序 具有 隐藏 功能 ,那么 以 上 系统 都 检测 不 到 。 因 
此 ,合理 的 检测 系统 应 该 能 在 攻击 发 生 之 前 就 可 以 进行 预 判 ,从 而 阻止 攻击 的 发 生 。 

McCune 等 人 0 中 提出 一 个 基于 可 信 平 台 模 块 (Trusted Platform Module. TPM) 的 隔 
离 系统 Flicker, 该 系统 具有 很 小 的 可 信 计 算 基 (Trusted Computing Base. TCB), 可 以 用 来 
执行 敏感 代码 并 提供 了 执行 代码 的 远程 认证 功能 ,但 是 具有 和 较 大 的 性 能 开销 。 

为 了 改善 Flicker 的 性 能 ,他 们 又 提出 一 个 专用 的 Hypervisor, 记 作 TrustVisorm""]。 
它 利 用 硬件 虚拟 化 的 特性 和 TPM 为 进程 和 内 核 提供 一 个 隔离 的 运行 环境 , 称 为 PAL 
(Pieces of Application Logic, 应 用 程序 逻辑 块 ) 。PAL 可 以 保证 其 内 数据 的 完整 性 和 机 密 
性 。TrustVisor 能 够 对 应 用 进程 的 敏感 代码 和 数据 进行 细 粒 度 的 保护 ,而 且 Trust Visor 很 
小 巧 ,可 以 方便 地 进行 形式 化 验证 ,同时 也 减 小 了 可 信 计 算 基 的 大 小 。 在 Iso- X rp tto 
用 了 这 样 的 思想 。 隔 离 执行 环境 的 缺点 是 需要 由 程序 开发 者 指定 隔离 域 ,这 需要 程序 员 有 
良好 的 编程 习惯 和 编程 素养 。 

以 Docker!) 为 代表 的 容器 技术 ,作为 一 个 开源 的 引擎 ,能 为 任何 应 用 创建 一 个 轻 量 
级 ,可 移植 的 及 自给 自足 的 容器 。 在 最 小 化 需要 运行 的 容器 上 ,开发 者 需要 权衡 容器 与 系统 
之 间 的 分 离 度 ,而 虚拟 机 与 主机 的 分 离 性 比 容器 会 更 高 。Docker 可 以 从 操作 系统 内 部 为 应 
用 程序 提供 隔离 的 运行 空间 ,是 一 种 操作 系统 层 的 虚拟 化 。 在 Docker 中 ,每 个 容器 独 享 一 
个 完整 用 户 环境 空间 , 且 一 个 容器 的 变动 不 会 影响 其 他 容器 的 正常 运行 。 

UPH (SandBox) O? 技术 按照 严格 的 安全 策略 来 限制 不 可 信 进 程 或 不 可 信 代 码 运 行 的 
访问 权限 ,因此 它 能 用 于 执行 未 被 测试 或 不 可 信 的 应 用 。 沙 箱 内 的 应 用 需要 访问 系统 资源 
时 , 它 首 先 会 发 出 读 系统 资源 的 请 求 , 然 后 系统 会 核查 该 资源 是 否 在 它 所 操作 的 权限 范围 
内 ,如 果 核 查 通过 则 完成 读 请 求 , 否 则 系统 会 拒绝 其 操作 。 沙 箱 能 为 不 可 信和 应 用 提供 虚拟 化 
的 内 存 ,文件 系统 和 网 络 资源 等 ,也 正 是 由 于 其 内 的 资源 被 虚拟 化 , 它 能 将 不 可 信 应 用 的 恶 
意 行为 限制 在 有 限 的 机 制 内 ,这 样 能 防止 不 可 信 应 用 可 能 损害 其 他 应 用 甚至 是 威胁 系统 的 
安全 5 

以 上 是 系统 级 隔离 技术 的 相关 研究 工作 。 相 比 而 言 , 硬 件 隔离 技术 可 以 很 好 地 将 敏感 
数据 保护 在 可 靠 的 物理 设备 中 ,并 可 以 采用 更 加 先进 的 防 算 改 技术 ,但 是 纯 硬 件 加 密 模 块 会 
增加 系统 的 功 耗 并 且 需 要 在 芯片 上 增加 专门 的 模块 ,通用 安全 处 理 器 则 因为 需要 与 主 处理 
器 通信 而 影响 系统 性 能 ,因此 硬件 隔离 技术 会 影响 系统 的 性 能 。 系 统 级 隔离 技术 不 需要 重 
新 设计 硬件 ,因此 开发 成 本 小 且 周 期 短 , 对 系统 的 性 能 影响 也 较 小 。 


3.3.3 其 他 安全 机 制 


由 于 操作 系统 的 功能 非常 强大 ,其 实现 机 制 也 很 复杂 ,那么 区 分 哪些 程序 是 正常 或 异常 
的 也 是 一 件 比较 困难 的 事情 。Hofmann 等 人 中 提出 一 种 基于 虚拟 化 的 安全 框架 InkTag. 
通过 验证 客户 操作 系统 的 行为 ,保证 即使 是 恶意 的 GOS 也 能 够 安全 地 执行 高 敏感 进程 
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(High Assurance Process, HAP)。InkTag 通过 基于 半 虚 拟 化 的 验证 机 制 强制 GOS 为 
Hypervisor 和 应 用 程序 提供 验证 自身 行为 的 相关 信息 ,利用 超级 调用 在 切换 的 过 程 中 对 
HAP 的 上 下 文 进行 保护 ,并 对 内 存 页 进行 完整 性 检查 和 机 密 性 保护 。 在 运行 的 过 程 中 ， 
InkTag 可 以 限制 GOS 对 HAP 寄存 器 数据 的 修改 ,从 而 保证 HAP 的 控制 流 完 整 性 不 会 被 
GOS 破坏 。InkTag 并 没有 采取 将 HAP 数据 /代码 与 GOS 隔离 的 机 制 ,而 是 提出 了 一 种 基 
于 属性 的 访问 控制 机 制 (Attribute Based Access Control) ,让 用 户 灵活 地 设置 针对 HAP 的 
访问 控制 策略 ,从 而 保护 他 们 自己 的 数据 机 密 性 和 完整 性 。 但 是 InkTag 需要 对 GOS 进行 
更 改 , 同 时 需要 重新 编写 HAP, 使 其 支持 超级 系统 调用 ,这 样 可 能 会 导致 与 其 他 系统 的 兼容 
性 问题 。 此 外 ,由 于 GOS 与 Hypervisor 交互 的 接口 ,造成 Hypervisor 被 攻击 的 可 能 ; 同时 
如 果 GOS 拒绝 将 信息 传递 给 Hypervisor, 则 会 形成 DoS 攻击 。 

在 提高 虚拟 机 可 靠 性 的 镜像 备份 以 及 备份 去 元 方面 ,也 有 一 些 研究 工作 。 在 文献 L[111] 
中 , 徐 继 伟 等 人 提出 一 种 基于 遗传 算法 的 虚拟 机 镜像 自 适应 备份 策略 , 即 针 对 不 同 的 虚拟 机 
镜像 备份 策略 ,分 别 建立 资源 需求 模型 ,根据 系统 当前 资源 占用 情况 自 适应 地 进行 策略 规 
划 , 从 而 最 小 化 备份 时 间 。Jin 等 人 号 提 出 一 个 虚拟 机 镜像 系统 中 的 去 元 余 方案 ,他 们 的 
实验 表明 在 虚拟 机 镜像 去 元 余 中 变 长 切 分 和 定 长 切 分 的 效果 相近 。Fu 等 人 中 采用 “ 源 ” 去 
TER (Source Deduplication) 方 案 在 私有 云 计算 环境 中 实现 了 虚拟 机 备份 ,备份 数据 先 在 
“ 源 ” 端 进行 聚合 再 传输 到 备份 端 。Jayaram 等 人 中 分 析 了 虚拟 机 镜像 的 相似 性 ,指出 虚拟 
机 镜像 具有 小 范围 相似 的 特点 。Zhang 等 人 中 针对 大 规模 的 虚拟 机 镜像 去 元 余 提 出 了 一 
种 低 开销 可 扩展 的 解决 方案 ,其 核心 思想 是 在 实际 的 存储 中 进行 重复 数据 检测 ,而 不 是 内 联 
去 元 余 。 该 方法 将 数据 索引 进行 划分 ,在 不 同 虚拟 机 之 间 执 行 去 元 余 。 

针对 虚拟 机 系统 中 存在 的 网 络 方面 的 威胁 ,如 拒绝 服务 攻击 ,Lakshmi 等 人 中 提出 了 
一 种 新 的 1/O 虚拟 架构 ,为 每 个 虚拟 机 配置 一 个 虚拟 网 卡 ,虚拟 机 可 以 通过 自身 的 网 卡 驱 
动 与 虚拟 网 卡 直 接 进行 通信 ,然后 通过 VMM 监视 每 个 虚拟 机 的 数据 流 。 这 样 可 以 防御 诸 
如 DMA 的 无 控制 漏洞 和 DoS 攻击 等 威胁 ; 与 此 同时 ,也 可 以 提高 网 络 性 能 。 

Catuogno 等 人 中 提出 一 种 基于 TCB 的 可 信和 虚拟 域 (Trusted Virtual Domain. TVD) 
的 设计 和 实现 ,通过 安全 策略 和 TVD 协议 实现 可 靠 性 。 在 交叉 平台 架构 下 ,实现 TVD 的 
生命 周期 管理 ,并 在 Xen 和 La 微 内 核 平台 上 实现 原型 系统 。Berger 等 人 D5 则 通过 软件 方 
法 设计 了 基于 硬件 TPM 的 虚拟 TPM 来 保证 多 个 虚拟 机 的 可 靠 性 。Ruan 等 人 "9 设计 了 一 
种 通用 可 信和 虚拟 平台 架构 (Generalized Trusted Virtualized Platform architecture. GT VP) ,将 控 
制 域 划 分 为 管理 .安全 .设备 .操作 系统 成 员 及 通信 5 个 子 域 .每 个 子 域 都 完成 相应 的 功能 ， 
以 实现 安全 以 及 负载 均衡 的 目标 。 

程 川 2 轨 提 出 了 一 种 基于 Xen 的 信任 虚拟 机 安全 访问 机 制 ,为 用 户 提供 了 一 种 有 效 的 
安全 访问 敏感 数据 的 模式 。 其 核心 思想 是 利用 虚拟 机 的 隔离 性 ,为 数据 应 用 提供 一 个 专用 
的 隔离 环境 ,同时 利用 可 信 计 算 技术 保证 该 虚拟 平台 配置 状态 的 可 信人 性。 

Jansen 等 人 52 提出 利用 传统 的 安全 技术 如 入 侵 检测 技术 ,并 通过 虚拟 化 来 提高 系统 
的 安全 性 和 独立 性 。 首 先 在 安全 主 域 配 置 人 侵 检测 系统 ,通过 对 客户 机 的 用 户 命令 信息 和 
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内 核 内 存 所 获取 的 信息 进行 比较 以 判断 是 否 为 人 侵 ,然后 通过 设置 保护 模块 获取 客户 机 系 
统 调用 、 进 行进 程 等 事件 管理 ,实现 完整 性 保护 。 张 志 新 等 人 "”” 提 出 了 基于 Xen 的 入 侵 检 
测 服务 ,通过 在 VMM 层 设置 人 侵 检测 系统 ,可 以 监控 到 所 有 对 操作 系统 的 入 侵 ,同时 将 系 
统 放置 在 一 个 独立 于 操作 系统 之 外 的 受 保护 的 空间 内 ,增强 了 入 侵 检测 系统 的 独立 性 和 检 
测 能 力 。 

朱 民 等 人 "针对 虚拟 化 软件 栈 不 同 软 件 层 的 安全 威胁 、 攻 击 方式 和 威胁 机 理 进行 了 
A Br ,并 针对 这 些 安全 威胁 ,以 可 信 基 为 视角 ,从 基于 虚拟 机 监控 器 .基于 微 虚 拟 机 监控 器 、 
基于 符 套 虚拟 化 和 基于 安全 硬件 等 类 别 分 析 比 较 了 国内 外 相关 安全 方案 和 技术 ,并 指出 了 
当前 仍然 存在 的 安全 问题 。 另 外 ,针对 云 计算 和 虚拟 化 的 安全 问题 的 研究 工作 还 可 以 参考 
文献 L[124-126] 等 。 

另外 ,在 实施 安全 策略 的 过 程 中 应 坚持 以 下 原则 。 

(1) 正确 配置 虚拟 机 监视 器 并 对 客户 虚拟 机 进行 监控 ,及 时 发 现 人 侵 和 攻击 并 阻止 
它们 。 

(2) 远程 管理 程序 的 连接 采用 动态 身份 认证 和 防 SQL 注入 技术 ,防范 对 管理 程序 的 攻 
击 。 同 时 ,虚拟 机 的 管理 应 仅 限于 企业 的 关键 工作 人 员 ,这 些 人 员 要 有 和 较 好 的 职业 操守 和 安 
全 意识 。 

(3) 保持 虚拟 机 系统 及 管理 程序 安装 最 新 升级 或 补丁 ,要 定期 进行 检查 或 自动 升级 ,从 
而 防范 攻击 者 利用 已 知 的 漏洞 对 系统 及 管理 程序 发 起 攻击 。 

C 对 虚拟 机 的 资源 进行 约束 ,防止 单个 虚拟 机 独占 所 有 物理 资源 ,造成 拒绝 服务 
攻击 。 

(5) 将 资源 进行 再 分 配 时 ,建议 对 存储 区 域 进行 重 写 覆 盖 , 因 为 前 虚拟 机 的 数据 存 于 内 
存 或 硬盘 上 ,分 配给 别 的 虚拟 机 时 ,需要 将 这 些 数 据 进行 重 写 覆 盖 。 

(6) 云 服务 提供 商 应 该 提供 较 好 的 虚拟 机 备份 机 制 , 定 期 创建 备份 。 

(7) 在 虚拟 机 迁移 过 程 中 ,检查 迁移 虚拟 机 的 环境 ,对 虚拟 机 内 存 等 状态 信息 和 虚拟 机 
副本 进行 保护 。 此 外 ,在 虚拟 机 进行 迁移 、 暂 停 并 重新 启动 时 ,建立 对 安全 性 进行 明确 定义 
和 记录 的 策略 。 


3.4 存在 的 问题 与 未 来 发 展 方向 


当前 虚拟 化 的 安全 性 研究 主要 集中 在 对 Hypervisor 的 保护 、 对 虚拟 机 的 隔离 以 及 对 虚 
拟 机 的 内 部 系统 与 应 用 的 保护 。 在 针对 虚拟 化 平台 的 攻击 中 ,很 多 是 利用 云 基础 设施 在 系 
统管 理 程序 中 存在 的 缺陷 与 漏洞 ,采取 不 同 的 攻击 方式 以 获取 操作 权限 或 窃取 敏感 数据 。 
目前 ,在 云 存储 虚拟 化 安全 方面 的 研究 已 经 取得 非常 丰富 的 研究 成 果 , 但 仍然 存在 以 下 
问题 。 

(1) 在 实际 应 用 中 ,虚拟 机 动态 增加 ,造成 虚拟 机 回收 与 清理 困难 ,形成 一 些 僵尸 虚拟 
机 、 幽 灵 虚 拟 机 和 虚 胖 虚拟 机 ,造成 对 虚拟 机 的 管理 困难 。 比 如 , 奔 用 的 僵尸 虚拟 机 消耗 着 
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资源 ,被 删除 的 虚拟 机 副本 占据 存储 资源 ,过 度 配置 的 虚拟 机 没有 得 到 充分 利用 。 

(2) 不 可 信和 的 云 内 部 人 员 带 来 的 内 部 威胁 。 因 为 云 内 部 人 员 可 能 拥有 过 高 的 访问 权 
限 ,而 且 他 们 的 行为 不 受 防火 墙 和 入 侵 检测 系统 的 限制 ,在 利益 驱动 下 可 能 会 侵犯 用 户 的 隐 
私 ,窃取 用 户 的 数据 。 以 Xen 为 例 ,管理 员 可 以 对 用 户 的 虚拟 机 进行 快照 和 Dump 备份 , 甚 
至 可 以 监听 用 户 的 网 络 。 内 部 威胁 的 防范 是 件 困难 的 事情 ,难以 从 技术 层面 解决 。 

(3) 针对 虚拟 化 自身 的 安全 威胁 ,当前 的 云 服务 提供 商 通常 采用 被 动 打 补 丁 的 方式 解 
决 。 然 而 ,这 不 仅 给 用 户 带 来 了 不 便 ,而 且 这 种 方式 也 只 能 防范 已 公布 的 漏洞 ,对 于 零 日 攻 
击 或 潜在 的 漏洞 仍然 无 能 为 力 。 

(4) 异常 检测 技术 通常 难以 抵御 特殊 类 型 的 安全 攻击 ,如 资源 释放 型 攻击 和 高 速 隐 项 
信道 攻击 等 。 

O 用 户 离开 某 个 云 虚 拟 化 平台 ,其 数据 是 否 被 彻底 删除 ,是 一 个 难以 证 明 的 问题 。 

对 于 虚拟 化 自身 的 安全 问题 ,要 减少 攻击 面 ,并 对 虚拟 化 平台 自身 进行 完整 性 保护 。 针 
对 内 部 威胁 ,要 让 虚拟 机 的 管理 过 程 对 用 户 可 见 , 同 时 设计 能 够 独立 于 云 服 务 提供 商 的 安全 
防御 策略 ,从 而 有 效 限制 内 部 人 员 滥 用 权限 。 对 于 数据 残留 问题 ,需要 加 强 法 律 法 规 建设 。 
防御 窃取 服务 攻击 需要 结合 基础 设施 的 差异 ,设计 适用 于 不 同 管理 程序 的 虚拟 机 监控 方案 ， 
同时 要 考虑 安全 机 制 对 云 平 台 性 能 的 影响 。 


3.5 本 章 小 结 


本 章 介绍 了 云 存储 虚拟 化 安全 的 相关 研究 工作 。 首 先 对 云 存储 虚拟 化 技术 的 分 类 以 及 
带 来 的 安全 挑战 进行 阐述 ; 然后 重点 介绍 了 针对 虚拟 机 的 攻击 方法 ,以 及 针对 这 些 攻击 方 
法 有 哪些 安全 机 制 ,主要 是 虚拟 机 访问 控制 和 虚拟 机 隔离 ; 最 后 总 结 仍然 存在 的 问题 以 及 
进一步 的 研究 方向 。 
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SIN 云 存 储 系统 身份 认证 
ee 与 访问 控制 


“On the Internet, nobody knows you're a dog.”( 在 互联 网 上 ,没有 人 知道 你 是 一 条 
狗 。) 这 向 话 是 《纽约 客 》1993 年 7 月 5 日 刊登 的 一 则 由 Peter Steiner 创作 的 漫画 的 标题 。 
这 则 漫画 中 有 两 条 狗 , 一 条 狗 坐 在 计算 机 前 的 一 张 椅子 上 , 另 一 条 狗 坐 在 地 板 上 说 话 。 

互联 网 的 开放 、 共 享 与 非 实 名 的 特征 决定 了 其 上 实体 之 间 交 互 时 存在 信任 问题 ,因此 为 
了 实现 不 同 实体 之 间 的 安全 通信 与 数据 共享 ,双方 都 需要 进行 身份 认证 与 访问 控制 。 

本 章 将 对 云 存储 系统 中 身份 认证 与 访问 控制 技术 进行 详细 介绍 。 


4.1 身份 认证 与 访问 控制 概述 


在 信息 安全 领域 ,身份 认证 与 访问 控制 就 像 是 挛 生 兄弟 ,总 是 联系 在 一 起 。 因 为 通常 进 
行 身份 认证 后 ,下 一 步 就 是 对 该 身份 的 实体 进行 访问 控制 。 下 面 将 对 身份 认证 与 访问 控制 
的 定义 与 功能 进行 介绍 ,界定 本 章 将 重点 讨论 的 内 容 。 


4.1.1 基础 知识 


身份 认证 是 对 访问 系统 用 户 的 身份 进行 鉴别 的 过 程 。 文 献 [1] 对 认证 的 本 质 有 一 个 比 
较 清 晰 的 说 明 。 认 证 是 保护 重要 数字 资产 和 机 密 信 息 免 受 盗窃 和 欺诈 的 基础 。 通 常 认 证 可 
以 使 用 以 下 3 种 方式 中 的 一 种 或 者 组 合 来 完成 。 
* 用 户 拥 有 什么 : 登录 名 、 智 能 卡 、 令 牌 .数字 硬件 指纹 (What you have: login name, 
smart card,token,digital hardware fingerprint) 。 
* 用 户 知道 什么 : 口令 、 通 行 证 .个 人 识别 号 码 (What you know: password, pass 
phrase. personal identification number (PIN)). 
。 用 户 是 什么 (用 户 的 固有 特征 ): 指纹 、 视 网 膜 模式 .DNA 序列 .签名 或 语音 识别 、 独 特 
的 生物 电信 号 或 其 他 生物 识别 标识 符 (What you are: fingerprints,retinal pattern. DNA 
sequence, signature or voice recognition, unique bio-electric signals, or another 
biometric identifier) 。 


对 用 户 进行 身份 认证 后 ,下 一 步 就 是 访问 控制 。 访 问 控制 包括 3 个 要 素 : 主体 、 客 体 和 
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控制 策略 。 访 问 控制 的 目的 是 限制 主体 对 客体 的 访问 ,从 而 保障 数据 资源 在 合法 范围 内 得 
以 有 效 使 用 与 管理 。 为 了 达到 上 述 目 的 ,访问 控制 需要 完成 两 个 任务 : 识别 和 确认 访问 系 
统 的 用 户 .决定 该 用 户 可 以 对 某 一 系统 资源 进行 何 种 类 型 的 访问 。 访 问 控制 三 要 素 的 说 明 
如 下 。 

COD 主体 (Subjecb : 提出 资源 访问 请 求 的 实体 ,是 某 一 操作 动作 的 发 起 者 ,但 不 一 定 是 
动作 的 执行 者 ; 可 能 是 某 一 用 户 , 也 可 以 是 用 户 启动 的 进程 .服务 和 设备 等 。 这 里 规定 实体 
(Entity) 表 示 用 户 所 在 的 组 织 ( 用 户 组 )、 用 户 、 用 户 使 用 的 计算 机 终端 或 一 个 计算 机 资源 
(物理 设备 .数据 文件 .程序 或 进程 ) 。 

(2) 客体 (Objecb : 被 访问 资源 实体 。 所 有 可 以 被 操作 的 信息 、 资 源 和 对 象 都 可 以 是 客 
体 。 客 体 可 以 是 信息 ,文件 ,记录 等 集合 体 ,也 可 以 是 网 络 上 硬件 设施 和 无 线 通信 中 的 终端 ， 
甚至 可 以 包含 另外 一 个 客体 。 

G) 访问 策略 (Attribution) : 主体 对 客体 的 操作 行为 集 和 约束 条 件 集 ,定义 了 主体 对 客 
体 的 作用 行为 和 客体 对 主体 的 条 件 约束 。 访问 策 略 体现 了 一 种 授权 行为 ,是 客体 对 主体 某 
些 操作 行为 的 权限 许可 ,所 有 许可 都 必须 在 规则 集 范围 内 。 

访问 控制 就 是 主体 依据 某 些 访问 策略 或 权限 控制 对 客体 本 身 或 其 资源 进行 的 不 同 授权 
访问 。 访问 控制 技术 起 源 于 20 世纪 70 年 代 , 当 时 是 为 了 满足 管理 大 型 主机 系统 上 共享 数 
据 时 进行 授权 访问 的 需求 。 访 问 控 制 有 以 下 3 个 重要 的 功能 。 

(1) 防止 非法 主体 访问 受 保护 的 系统 资源 。 

(2) 保证 合法 用 户 访问 受 保护 的 系统 资源 。 

(3) 防止 合法 用 户 对 受 保护 的 系统 资源 进行 非 授 权 的 访问 。 

但 是 随 着 计算 机 技术 和 应 用 的 发 展 ,特别 是 互联 网 的 发 展 ,访问 控制 技术 的 思想 和 方法 
迅速 应 用 于 信息 系统 的 各 个 领域 。 

身份 认证 在 云 存 储 系统 中 与 在 传统 存储 系统 或 计算 模式 下 ,并 没有 什么 改变 ,因此 已 有 
的 身份 认证 技术 仍然 可 以 直接 利用 而 且 已 经 广泛 应 用 于 云 存储 系统 中 。 但 是 因为 云 存储 环 
境 下 ,主体 与 客体 的 关系 .各 实体 的 可 信人 性 都 发 生 了 变化 ,所 以 大 部 分 传统 访问 控制 技术 并 
不 能 直接 应 用 于 云 存 储 系统 。 

因此 ,本章 将 重点 介绍 云 存储 系统 中 的 访问 控制 技术 ,分 析 在 云 存储 环境 下 对 访问 控制 
的 需求 ,并 与 传统 的 访问 控制 技术 进行 区 别 。 


4.1.2 传统 访问 控制 


早 在 20 世纪 70 年 代 ,Lampson 中 就 提出 了 访问 控制 的 形式 化 和 机 制 描述 ,引入 了 主 
体 .客体 和 访问 和 矩阵 的 概念 。 在 随后 若干 年 的 发 展 过 程 中 ,先后 出 现 了 多 种 重要 的 访问 控制 
技术 ,包括 自主 访问 控制 (Discretionary Access Control. DAC) ,强制 访问 控制 (Mandatory 
Access Control, MAC) 和 基于 角色 的 访问 控制 (Role-Based Access Control, RBAC)。 

自从 Lampson 提出 访问 控制 机 制 后 ,对 访问 控制 模型 的 研究 ,大 致 经 历 了 以 下 4 个 
阶段 。 


第 4 章 。” 云 存储 系统 身份 认证 与 访问 控制 P> 59 


(1) 20 世纪 六 七 十 年 代 应 用 于 大 型 主机 系统 中 的 访问 控制 模型 ,比如 Bell-Lapadula 模 
型 中 和 HRU 模型 中 

(2) 美国 国防 部 (Department of Defense. DoD) ft 1985 年 公布 的 “可 信 计 算 机 安全 评价 
标准 (Trusted Computer System Evaluation Criteria,TCSEC)” 呈 中 明确 提出 了 访问 控制 在 
计算 机 安全 系统 中 的 重要 作用 ,并 指出 一 般 的 访问 控制 机 制 有 两 种 : 自主 访问 控制 (DAC) 
和 强制 访问 控制 (MAC)。 

(3) 从 Ferraiolo 和 Kuhn! 在 1992 年 提出 的 基于 角色 的 访问 控制 (RBAC) 模 型 ,到 
Sandhu 等 人 先后 提出 了 RBACI6™ , ARBAC97™ 和 ARBAC99 中 模型 ,再 到 2001 年 8 月 
NIST 发 表 了 RBAC ÆW, Ferraiolo-Kuhn 模型 将 现 有 的 面向 应 用 的 方法 应 用 到 
RBAC 模型 中 ,是 RBAC 模型 最 早 的 形式 化 描述 。NIST RBAC 建议 标准 进一步 对 角色 进 
行 了 详细 的 研究 ,在 用 户 和 访问 权限 之 间 引 入 了 角色 的 概念 。 

CD 对 访问 控制 模型 的 扩展 研究 ,比较 有 代表 性 的 有 : 应 用 于 工作 流 系 统 或 分 布 式 系 
统 中 的 基于 任务 的 授权 控制 模型 (Task-Based Authentication Control, TBAC)") .基于 任 
务 和 角色 的 访问 控制 模型 (Task-Role-Based Access Control, T-RBACOU? 以 及 被 称 作 下 一 
代 访 问 控制 模型 的 使 用 控制 (Usage Control,UCON) 模 型 252 (也 称 之 为 ABC 模型 5 ) 。 

1. 自主 访问 控制 

自主 访问 控制 是 指 由 用 户 对 自身 所 创建 的 访问 对 象 (文件 ,数据 表 等 ) 进 行 访问 控制 ,并 
可 将 对 这 些 对 象 的 访问 权 授予 其 他 用 户 或 从 授予 权限 的 用 户 那 里 收回 其 访问 权限 。 自 主 访 
问 控制 中 ,用 户 可 以 针对 被 保护 对 象 制 定 自己 的 保护 策略 。 

DAC 模型 一 般 通 过 访问 控制 矩阵 和 访问 控制 列表 (Access Control List,ACL) 来 存放 
不 同 主体 的 访问 控制 信息 ,从 而 达到 限定 哪些 主体 对 哪些 客体 可 以 执行 什么 操作 的 目的 。 
Linux 操作 系统 就 是 采用 的 DAC 访问 控制 模型 。 

每 个 主体 拥有 一 个 用 户 名 并 属于 一 个 组 或 具有 一 个 角色 ,而 每 个 客体 都 拥有 一 个 限定 
主体 对 其 访问 权限 的 访问 控制 列表 ,每 次 访问 发 生 时 都 会 基于 访问 控制 列表 检查 用 户 以 实 
现 对 其 访问 权限 的 控制 。 

2. 强制 访问 控制 

强制 访问 控制 是 指 由 系统 通过 专门 设置 的 系统 安全 管理 员 对 用 户 所 创建 的 对 象 进 行 统 
一 的 强制 性 控制 ,按照 制定 的 规则 决定 哪些 用 户 可 以 对 哪些 对 象 进行 什么 操作 。 即 使 是 创 
建 者 ,在 创建 一 个 对 象 后 ,也 可 能 无 权 访问 该 对 象 。 

在 强制 访问 控制 模型 中 ,系统 独立 于 用 户 行为 强制 执行 访问 控制 ,用 户 不 能 改变 他 们 的 
安全 级 别 或 对 象 的 安全 属性 。MAC 的 访问 控制 规则 通常 对 所 有 主体 (用 户 , 进 程 ) 和 客体 
(文件 ,数据 ) 按 照 安 全 等 级 划分 标签 ,访问 控制 机 制 通过 比较 安全 等 级 来 确定 用 户 对 资源 的 
访问 。 

MAC 是 一 种 强加 给 访问 主体 , 即 系统 强制 主体 服从 访问 控制 策略 的 一 种 访问 方式 , 它 
利用 上 读 / 下 写 来 保证 数据 的 完整 性 ,利用 下 读 / 上 写 来 保证 数据 的 保密 性 。 

其 中 上 读 / 下 写 和 下 读 / 上 写 的 定义 如 下 。 
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d) 向 下 读 (rd,read down): 主体 安全 级 别 高 于 客体 信息 资源 的 安全 级 别 时 允许 的 读 
操作 。 

(2) [a] Ei Cru, read up): 主体 安全 级 别 低 于 客体 信息 资源 的 安全 级 别 时 允许 的 读 
操作 。 

(3) 向 下 写 (wd,write down): 主体 安全 级 别 高 于 客体 信息 资源 的 安全 级 别 时 允许 执 
行 的 动作 或 是 写 操作 。 

(4) 向 上 写 (wu,write up): 主体 安全 级 别 低 于 客体 信息 资源 的 安全 级 别 时 允许 执行 的 
动作 或 是 写 操作 。 

一 种 服务 如 果 以 “秘密 ”的 安全 级 别 运行 ,攻击 者 在 目标 系统 中 以 “秘密 ”的 安全 级 别 进 
行 操作 ,他 将 不 能 访问 系统 中 安全 级 别 为 机密 ”及 “高 密 ” 的 数据 。 

MAC 通过 分 级 的 安全 标签 实现 了 信息 的 单 向 流通 ,其 中 最 著名 的 是 Bell-LaPadula 模 
型 中 和 Biba RRO, Bell-LaPadula 模型 具有 只 人 允许 向 下 读 、 向 上 写 的 特点 ,可 以 有 效 地 防 
止 机 密 信 息 向 下 级 泄露 ; Biba 模型 则 具有 不 允许 向 下 读 、 向 上 写 的 特点 ,可 以 有 效 地 保护 数 
据 的 完整 性 。 强 制 访问 控制 进行 了 很 强 的 等 级 划分 ,所 以 经 常用 于 军事 用 途 。 

强制 访问 控制 和 自主 访问 控制 有 时 会 结合 使 用 。 例 如 ,系统 可 能 首先 执行 强制 访问 控 
制 来 检查 用 户 是 否 有 权限 访问 一 个 文件 组 (这 种 保护 是 强制 的 ,也 就 是 说 ,这 些 策略 不 能 被 
用 户 更 改 ) ,然后 再 针对 该 组 中 的 各 个 文件 制定 相关 的 访问 控制 列表 (自主 访问 控制 策略 ) 。 

3. 基于 角色 的 访问 控制 

基于 角色 的 访问 控制 模型 将 权限 与 角色 相关 联 , 用 户 通 过 成 为 适当 角色 的 成 员 来 获得 
相应 角色 的 权限 ,解决 了 在 传统 的 访问 控制 中 主体 始终 是 和 特定 的 实体 捆绑 的 不 灵活 问题 ， 
实现 了 主体 的 灵活 授权 ,是 最 经 典 的 访问 控制 模型 。 

目前 ,RBAC 被 广泛 应 用 在 操作 系统 数据库 管理 系统 、 公 钥 基 础 设施 (Public Key 
Infrastructure, PKI) .工作 流 管 理 系统 和 Web 服务 等 领域 。 

4. 基于 任务 和 角色 的 访问 控制 

基于 任务 和 角色 的 访问 控制 模型 (T-RBAC) 把 任务 和 角色 置 于 同等 重要 的 地 位 , 先 将 
访问 权限 分 配给 任务 ,再 将 任务 分 配给 角色 ,角色 通过 任务 与 权限 关联 ,任务 是 角色 和 权限 
交换 信息 的 桥梁 。 在 T-RBAC 模型 中 ,任务 具有 权限 ,角色 只 有 在 执行 任务 时 才 具 有 权限 ， 
当 角 色 不 执行 任务 时 不 具有 权限 。 权 限 的 分 配 和 回收 是 动态 进行 的 ,任务 根据 流程 动态 到 
达 角 色 , 权 限 随 之 赋予 角色 ; 当 任 务 完成 时 ,角色 的 权限 也 被 随 之 收回 ,角色 在 工作 流 中 不 
需要 赋予 权限 。 这 样 不 仅 使 角色 的 操作 、 维 护 和 任务 的 管理 变 得 简单 方便 ,也 使 得 系统 变 
得 更 为 安全 。 

5. 下 一 代 访 问 控制 

下 一 代 访 问 控制 模型 UCON( 也 称 ABC 模型 ) ,包含 3 个 基本 元 素 和 3 个 与 授权 有 关 
的 元 素 。3 个 基本 元 素 分 别 是 主体 (Subject) , ZE (Object) ,权限 (Right); 另外 3 个 与 授权 
有 关 的 元 素 分 别 是 授权 规则 (Authorization Rule) .A& fF (Condition) , X 4 (Obligation) 。 

主体 是 具有 某 些 属 性 并 对 客体 (Objects) 具 有 操作 权限 的 实体 。 主 体 的 属性 包括 身份 、 
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角色 ,安全 级 别 、 成 员 资 格 等 。 客 体 是 主体 的 操作 对 象 ,其 属性 包括 安全 级 别 、 所 有 者 、 等 级 
等 。 权 限 是 主体 拥有 的 对 客体 进行 操作 的 一 些 特权 ,由 一 个 主体 对 客体 进行 访问 或 使 用 的 
功能 集 组 成 。UCON 中 的 权限 可 分 成 许多 功能 类 ,如 审计 类 修改 类 等 。 

授权 规则 是 允许 主体 对 客体 进行 访问 或 使 用 前 必须 满足 的 一 个 需求 集 ,是 用 来 检查 主 
体 是 否 有 资格 访问 客体 的 决策 因素 。 条 件 是 在 使 用 授权 规则 进行 授权 过 程 中 ,允许 主体 对 
客体 进行 访问 前 必须 检验 的 一 个 决策 因素 集 。 条 件 是 环境 的 或 面向 系统 的 决策 因素 ,可 用 
来 检查 存在 的 限制 ,如 使 用 权限 是 否 有 效 、 哪 些 限制 必须 更 新 等 。 义 务 是 一 个 主体 在 获得 对 
客体 的 访问 权限 后 必须 履行 的 强制 任务 ,分 配 了 权限 就 应 有 执行 这 些 权 限 的 义务 责任 。 

在 UCON 模型 中 ,授权 规则 、 条 件 、 义 务 与 授权 过 程 相关 ,它们 是 决定 一 个 主体 是 否 有 
某 种 权限 能 对 客体 进行 访问 的 决策 因素 。 基 于 这 些 元 素 ,UCON 有 4 种 可 能 的 授权 过 程 ， 
并 由 此 可 以 证 明 : UCON 模型 不 仅 包 含 了 DAC、MAC 和 RBAC, 而 且 还 包含 了 数字 版 权 管 
(Digital Rights Management,DRM) 与 信任 管理 等 。UCON 模型 涵盖 了 现代 商务 和 信息 
系统 需求 中 的 安全 和 隐私 这 两 个 重要 的 问题 ,为 研究 下 一 代 访 问 控制 提供 了 一 种 方向 ,被 称 
作 下 一 代 访 问 控制 模型 。 

随 着 网 络 和 计算 技术 的 不 断 发 展 ,访问 控制 的 应 用 也 扩展 到 更 多 的 领域 ,比如 操作 系 
统 . 数 据 库 、 无 线 移动 网 络 、 网 格 计 算 5 以 及 云 计 算 等 。 

以 上 对 传统 访问 控制 进行 了 介绍 ,下面 将 分 析 云 存储 环境 下 的 访问 控制 与 传统 访问 控 
制 的 区 别 ,从 而 理解 云 计算 与 云 存储 环境 下 对 访问 控制 的 需求 。 


4.1.3. 云 存储 系统 的 访问 控制 


云 计算 与 云 存储 作为 一 种 新 型 的 服务 模式 ,其 虚拟 化 与 多 租户 特征 ,使 用 户 不 仅 失 去 了 
对 物理 设备 的 实际 控制 权 ,而 且 不 知道 与 其 共享 资源 的 实体 是 什么 。 用 户 身份 认证 和 数据 
访问 控制 作为 云 计算 与 云 存储 中 一 道 重要 的 安全 防线 ,能 够 通过 鉴定 身份 ,制定 安全 策略 以 
及 基于 加 密 密 钥 等 安全 手段 管理 访问 该 系统 的 用 户 和 数据 内 容 , 以 保证 合法 用 户 能 够 安全 
地 接 人 系统 并 获取 想 要 的 数据 文件 ,同时 防止 恶意 攻击 者 进入 系统 对 数据 进行 窃取 或 者 
AK. 

但 与 传统 访问 控制 系统 相 比 , 云 存储 系统 的 访问 控制 有 以 下 区 别 。 

(1) 传统 用 户 身份 认证 和 数据 访问 控制 是 在 服务 器 可 信 的 前 提 下 进行 ,而 云 计 算 与 云 
存储 环境 下 用 户 身份 认证 和 数据 访问 控制 是 在 不 可 信 的 服务 器 模型 下 。 通 常 , 云 服务 器 会 
诚实 地 执行 用 户 的 指令 ,但 在 各 种 利益 驱动 下 ,很 难保 证 云 服务 提供 商 仍然 诚实 可 信 。 

(2) 云 存储 环境 下 用 户 失去 了 对 物理 设备 的 控制 权 , 很 难 实现 用 户 与 云 服务 器 之 间 的 
信任 ,同时 虚拟 化 技术 下 多 租户 特征 可 能 导致 合法 用 户 窃取 同一 物理 设备 上 其 他 合法 用 户 
的 数据 。 

(3) 云 存储 环境 下 ,用 户 对 数据 的 访问 通常 是 有 选择 性 并 被 高 度 区 分 的 ,不 同 用 户 对 数 
据 享 有 不 同 的 权限 。 传 统 的 访问 控制 是 用 户 在 可 信 的 服务 器 上 存储 数据 ,而 在 云 存储 环境 
下 ,用 户 和 云 服 务 器 不 在 同一 个 可 信 域 内 。 另 外 ,因为 云 服务 器 不 完全 可 信 , 如 果 服 务 器 被 
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恶意 攻击 者 控制 或 者 存在 内 部 威胁 ,用 户 的 数据 得 不 到 任何 安全 保障 。 因 此 ,必须 利用 云 服 
务 器 的 计算 资源 ,实现 细 粒 度 的 访问 控制 ,保证 云 中 的 数据 、 信 息 流 、 记 录 等 不 被 非法 访问 。 

(A) 云 计算 与 云 存 储 是 一 个 动态 的 分 布 式 系统 ,需要 综合 考虑 时 间 \ 位 置 . 云 资源 迁移 
等 因素 的 影响 ,所 以 访问 控制 模型 要 将 云 计算 与 云 存储 中 动态 的 因素 作为 访问 控制 模型 的 
约束 条 件 进行 研究 。 

因此 , 云 计算 与 云 存储 系 统 给 访问 控制 研究 提出 了 新 的 挑战 一 一 如 何 发 展 传统 的 访问 
控制 技术 来 解决 新 型 的 云 存储 安全 问题 。 围 绕 这 个 问题 ,学 术 界 和 产业 界 展开 了 一 系列 的 
研究 ,产业 界 的 主要 解决 方案 是 采取 多 种 访问 控制 技术 相 结合 或 多 级 访问 控制 的 方式 ,学 术 
界 的 研究 主要 集中 在 如 何 保护 数据 的 安全 上 ,其 中 包括 : 中 怎样 将 传统 的 访问 控制 模型 应 
用 于 云 存 储 系 统 ; @ 基 于 密码 技术 实现 细 粒 度 访问 控制 ,比如 加 密 数 据 , 然 后 以 共享 密 钥 的 
方式 对 数据 进行 访问 控制 ,再 比如 使 用 基于 属性 加 密 (ABE) 技 术 实 现 细 粒 度 访问 控制 。 

其 中 基于 加 密 机 制 的 访问 控制 方案 的 研究 成 果 非 常 丰富 ,因为 在 云 存储 环境 下 ,为 了 保 
障 数据 隐私 ,通常 将 数据 加 密 后 再 存放 到 云 服务 器 上 ; 而 关于 细 粒 度 访问 控制 ,很 多 研究 都 
是 基于 ABE 密码 机 制 。 因 此 ,下 面 将 对 一 些 相关 理论 知识 进行 介绍 ,主要 是 对 基于 属性 加 
密 技术 进行 介绍 。 

此 外 ,虚拟 机 的 访问 控制 技术 通常 通过 一 些 隔 离 手段 来 实现 。 此 部 分 内 容 在 第 3 章 有 
详细 介绍 ,不 作为 本 章 的 重点 内 容 。 


4.2 相关 理论 知识 


鉴于 目前 的 细 粒 度 访 问 控制 技术 大 部 分 是 基于 属性 加 密 技 术 , 因 此 本 节 将 对 相关 理论 
知识 进行 介绍 ,主要 包括 双 线 性 对 、 访 问 结构 和 属性 加 密 机 制 的 发 展 。 


4.2.1 双 线 性 对 


1946 年 , Weil 提出 第 一 个 定义 在 代数 曲线 上 的 可 有 效 计算 的 双 线 性 映射 , 即 Weil xf. 
成 为 代数 几何 特别 是 代数 曲线 理论 研究 中 一 个 非常 重要 的 概念 和 工具 。 

2000 年 开始 ,Sakai 等 人 中 和 Boneh 等 人 "中 发 现 了 双 线 性 对 在 密码 学 中 的 应 用 价 
值 , 即 能 够 用 来 构造 基于 身份 的 密码 机 制 (Identity Based Encryption. IBE) 和 三 方 一 轮 密 钥 
协商 等 。 此 后 , 双 线 性 对 被 用 于 聚合 签名 .可 验证 加 密 的 签名 .部 分 盲 签名 等 。 

由 于 发 现 双 线性 对 可 以 实现 基于 属性 的 加 密 (ABE) .断言 (或 谓词 ) 加 密 (Predicate 
Encryption. PE) 函数 (或 功能 ) 加 密 (Function Encryption. FE) , n] 18 Z& f Jil 4 (Searchable 
Encryption,SE) 等 ,并 且 伴 随 云 计算 技术 的 风 生 水 起 , 双 线 性 对 密码 机 制 逐 渐 成 为 研究 
热点 。 

下 面 对 双 线性 对 的 定义 进行 描述 。 

d GiG: 和 Gs 是 3 个 n 阶 循环 群 (其 中 可 以 是 素数 ,也 可 以 是 合 数 ), 这 里 考虑 Gi、 
G: 和 Gs 都 是 乘法 群 ,但 早期 的 双 线 性 对 密码 方案 中 的 Gi 和 G 一 般 考虑 的 是 加 法 群 , 主 
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要 是 因为 用 于 构造 双 线 性 对 的 椭圆 曲线 群 的 运算 是 加 法 。 

一 个 双 线 性 对 。 就 是 一 个 从 Gi XG, 到 Gs 的 双 线 性 映射 ,满足 如 下 性 质 。 

* WATE: 设 g1 €G,.g.€Gr.a bE Z, fi elg: gi D—e (rogi. 

。 非 退化 性 : 对 每 个 gi EG1/{1) ,总 存在 e € Go [EE egi. 

。 有 效 可 计算 性 : 对 于 任意 的 wx,vEGi ,能 够 在 一 个 多 项 式 时 间 内 计算 e(x,v) 。 

利用 椭圆 曲线 或 超 椭圆 曲线 构造 的 双 线 性 对 有 下 面 3 RRXEIUU, 

CD 类 型 1: G1 悦 Gs。 有 一 个 有 效 可 计算 的 同 构 , 这 时 一 般 可 假定 Gi =G ,这 样 的 双 线 
性 对 也 称 为 对 称 双 线 性 对 。 一 般 可 以 用 超 奇 异 椭圆 曲线 或 超 椭圆 曲线 来 实现 。 

(2) 类 型 2: 有 一 个 有 效 计算 群 同 态 G, 一 Gi, 但 无 从 G, BG, 的 有 效 同 态 。 这 类 双 线 
性 对 一 般 用 素数 域 上 的 一 般 椭圆 曲线 实现 ,G, 是 基 域 上 椭圆 曲线 群 ,G, 是 扩 域 上 椭圆 曲线 
TREG: 到 G, 的 同 态 一 般 取 迹 映 射 。 

(3) 类 型 3: 没有 任何 G1 一 G;  G.>G, 的 有 效 可 计算 的 同 态 ( 同 态 甚至 同 构 一 定 是 
存在 的 ,这 里 是 指 没 有 有 效 计算 的 同 构 )。 这 类 双 线 性 对 也 是 用 素 域 上 的 一 般 曲 线 来 构造 ， 
Gs 一 般 取 迹 映射 的 核 。 

自从 Boneh 等 人 中 提出 了 椭圆 曲线 上 的 双 线 性 映射 后 , 双 线 性 映射 被 广泛 应 用 于 加 
密 、 签 名 等 信息 安全 领域 , 现 有 的 ABE 密码 机 制 也 大 多 基于 双 线 性 映射 来 实现 。 

关于 双 线 性 对 和 双 线 性 映射 , 张 方 国教 授 在 文献 [21] 中 做 了 详细 的 介绍 。 


4.2.2 访问 结构 


在 基于 属性 的 加 密 算法 中 ,访问 结构 是 一 种 用 于 描述 访问 控制 策略 的 逻辑 结构 。 常 用 
的 访问 结构 有 门限 访问 结构 2 .基于 树 的 访问 结构 2 、 基 于 正 负 属性 值 的 “与 ” 门 结构 1 、 
基于 多 属性 值 的 “与 ” 门 结构 中 、 支 持 通配符 的 基于 多 属性 值 的 “与 ” 门 结构 "1 和 线性 访问 
结构 [8] 。 

基于 门限 的 访问 结构 的 原理 是 : 根据 拥有 不 同属 性 集 的 用 户 到 达 该 门限 所 在 节点 的 路 
径 的 数目 来 决定 是 否 允 许 访问 。 最 简单 的 访问 结构 是 (1,n) 门 限 访问 结构 ,其 中 表示 参 
与 者 的 个 数 ,t 表示 门限 值 。 在 (1,n) 门 限 访问 结构 中 ,授权 集合 是 由 zt 个 或 者 多 于 个 参与 
者 构成 的 集合 , 非 授权 集合 则 是 少 于 t 个 参与 者 构成 的 集合 。 对 于 (+.n) 门 限 访问 结构 , 当 
且 仅 当 用 户 属性 集合 和 密 文 属 性 集合 的 交集 中 元 素 个 数 满足 门限 上 时 ,用 户 才能 解密 密 文 。 

在 基于 树 的 访问 结构 中 , 树 的 每 一 个 非 叶 子 节点 由 一 个 门限 值 和 它 的 孩子 节点 来 描述 ， 
而 树 的 每 一 个 叶子 节点 都 对 应 一 个 属性 。 在 基于 正 负 属性 值 的 “与 ” 门 结构 中 ,如 果 一 个 用 
户 拥 有 某 个 属性 , 则 表示 为 正 属性 ; 如 果 不 用 有 某 个 属性 , 则 表示 为 负 属 性 。 一 个 用 户 能 解 
密 一 个 密 文 , 当 且 仅 当 密 文 的 属性 集合 满足 用 户 的 访问 树 (Access Tree). 

AND 和 OR 操作 可 以 很 容易 地 用 门限 结构 实现 ,如 果 系 统 设置 一 个 门限 为 (1,n), 即 
实现 了 OR 操作 ; 如 果 系 统 设置 门 限 为 (n,n), 即 实现 了 AND 操作 。 访 问 树 构 建 方法 如 
下 : 每 个 非 叶 子 节点 代表 一 个 门限 ,每 个 叶子 节点 代表 一 个 属性 , 当 一 个 属性 与 该 叶子 节点 
属性 相同 时 , 记 为 该 属性 满足 这 个 叶子 节点 。 属 性 集合 满足 一 个 访问 树 的 定义 如 下 : 设 访 
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问 树 T 是 以 节点 尺 为 根 节点 的 树 形 结构 , 设 对 应 节点 zx 的 子 树 为 了 , ,如 果 一 个 属性 集合 S 
满足 一 个 子 树 T.U TS) =1; 并 且 当 一 个 子 树 的 孩子 节点 对 应 的 子 树 达到 该 子 树 节 
点 门限 值 时 ,认为 满足 该 子 树 …… 如 此 可 以 递归 计算 一 个 属性 集合 是 否 满足 一 个 访问 树 。 
函数 att(z) 只 对 叶子 节点 有 效 ,表示 与 叶子 节点 x 相关 的 属性 。 如 果 z 是 一 个 非 叶子 节 
点 ,分 别 计算 x 的 所 有 子 节点 z 的 T.(S) 值 。 当 且 仅 当 至 少 Kx; 个 子 节点 的 T.(S)=1 
时 ,T,(S)==1。 如 果 z 是 一 个 叶子 节点 , 则 当 且 仅 当 att(z)ES 时 T.(S) 王 1。 当 一 个 属 
性 集合 满足 一 个 访问 树 的 时 候 , 系 统 的 某 个 主 秘密 可 以 被 计算 出 来 ,这 样 就 实现 了 基于 密 钥 
策略 属性 的 加 密 。 


4.2.3 基于 属性 加 密 机 制 


在 传统 的 访问 控制 系统 中 ,用 户 的 权限 和 所 有 的 数据 都 由 系统 管理 员 来 分 配 和 管理 。 
随 着 系统 中 用 户 数 量 和 数据 量 的 增长 ,以 及 用 户 对 数据 和 个 人 隐私 需求 的 不 断 提升 ,传统 访 
问 控制 技术 面临 着 管理 复杂 的 难题 。 

基于 属性 的 加 密 (Attributed Based Encryption. ABE) 机 制 可 以 很 好 地 解决 上 述 问 题 ， 
其 解决 思路 是 : 系统 中 每 个 权限 可 由 一 个 属性 表示 ,由 一 个 权威 机 构 对 所 有 访问 者 的 权限 
属性 进行 认证 并 颁发 相应 的 密 钥 ,系统 中 的 资源 以 加 密 形式 保存 在 服务 器 中 ,加 密 的 访问 策 
略 可 根据 需要 由 资源 发 布 者 来 灵活 制定 ,任何 人 都 能 够 公开 访问 加 密 后 的 资源 ,但 只 有 满 
足 访 问 策略 的 访问 者 才 可 以 解密 该 资源 。 例 如 ,一 个 用 户 想 要 分 享 一 个 秘密 信息 给 拥有 
属性 A3 且 拥 有 属性 Al 或 A2 的 用 户 , 他 可 以 通过 指定 一 个 形 如 “Al” or “A2” and “A3” 
的 布尔 表达 式 作为 加 密 策略 来 加 密 秘密 信息 ,只 有 满足 此 条 件 表达 式 的 用 户 才能 访问 该 
秘密 信息 。 

同时 ,该 方法 有 效 地 解决 了 传统 访问 控制 中 系统 管理 员 管理 所 有 用 户 权 限 的 问题 , 同 
时 ,服务 器 并 不 需要 与 每 个 访问 者 交互 ,从 而 提高 了 系统 的 效率 。 

基于 属性 加 密 机 制 是 公 钥 密码 学 和 基于 身份 的 密码 学 的 一 种 扩展 。 基 于 属性 加 密 把 基 
于 身份 加 密 中 表示 用 户 身 份 的 唯一 标识 ,扩展 成 由 多 个 属性 组 成 的 属性 集合 ,还 将 访问 结构 
融入 属性 集合 中 ,使 公 钥 密码 体制 具备 了 细 粒 度 访问 控制 的 能 力 , 即 通过 密 文 策略 和 密 钥 策 
略 来 限制 用 户 对 密 文 的 访问 和 解密 能 力 。 

2005 年 ,Sahai 与 Waters 第 一 次 提出 基于 模糊 身份 加 密 的 方案 (Fuzzy Identity-Based 
Encryption, Fuzzy-IBE) ? ,将 生物 特性 信息 ,如 指纹 .虹膜 等 直接 作为 身份 信息 应 用 于 基于 
身份 的 加 密 方 案 中 。 在 该 方案 中 ,用 户 的 身份 信息 被 特征 化 为 一 组 属性 ,而 身份 的 匹配 关系 
由 原来 的 “完全 匹配 ” 变 为 “相似 匹配 ”, 即 对 两 个 由 个 属性 组 成 的 身份 信息 ,只 需要 它们 
之 间 至 少 存在 t 个 共同 的 属性 即 可 ,而 n 一 t 则 是 对 误差 的 “容忍 值 ”。 他 们 在 论文 中 引入 了 
属性 的 概念 ,发 展 了 传统 的 基于 身份 密码 体制 关于 身份 的 概念 ,将 身份 看 作 是 一 系列 属性 的 
集合 。 

属性 密码 学 自 诞 生 以 来 ,就 成 为 密码 学 领域 一 个 热门 的 研究 方向 ,得 到 了 快速 发 展 ,在 
分 布 式 文件 管理 ,第 三 方 数据 存储 、 日 志 审 计 、 付 费 电视 系统 、 定 向 广播 加 密 等 领域 有 着 广泛 
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的 应 用 。 特 别 是 近 几 年 , 随 着 云 计 算 技 术 的 发 展 和 日 益 普及 , 越 来 越 多 的 企业 和 个 人 将 数据 
存储 外 包 给 云 服 务 器 。 针 对 用 户 的 数据 安全 和 隐私 问题 ,属性 密码 学 提供 了 很 好 的 解决 
方案 。 

与 传统 密码 学 相 比 ,属性 密码 学 提供 了 更 加 灵活 的 操作 关系 。 在 属性 加 密 机 制 中 , 密 文 
和 密 钥 都 与 一 组 属性 相关 ,加 密 者 可 根据 要 加 密 的 内 容 和 接收 者 的 特征 信息 制定 一 个 由 属 
性 构成 的 加 密 策略 ,而 产生 的 密 文 只 有 属性 满足 加 密 策略 的 用 户 才 可 以 解密 。 属 性 加 密 机 
制 具 有 以 下 4 个 特点 。 

CD 高 效 性 : 加 解密 代价 和 密 文 长 度 仅 与 相应 属性 个 数 相 关 , 而 与 系统 中 用 户 的 数量 
无 关 。 

(2) 动态 性 : 用 户 能 否 解 密 一 个 密 文 仅 取决 于 他 的 属性 是 否 满足 密 文 的 策略 ,而 与 他 
是 否 在 密 文生 成 前 加 入 这 个 系统 无 关 。 

G) 灵活 性 : 具体 表现 为 加 密 策略 可 支持 复杂 的 访问 结构 ,如 门限 、 布 尔 表 达 式 。 

(4) 隐私 性 : 加 密 者 仅 需 要 根据 属性 加 密 数据 ,并 不 需要 知道 这 些 属 性 所 属 的 用 户 , 即 
解密 者 的 身份 信息 ,从 而 保护 了 用 户 的 隐私 。 

属性 加 密 机 制 极 大 地 丰富 了 加 密 策 略 的 灵活 性 和 用 户 权 限 的 可 描述 性 ,以 往 的 一 对 一 
加 解密 模式 被 扩展 成 一 对 多 模式 。 基 于 以 上 良好 性 质 , 属 性 加 密 机 制 可 以 有 效 地 实现 非 交 
互 的 访问 控制 。 

2006 年 ,Goyal 等 人 5 在 基于 模糊 身份 加 密 方 案 的 基础 上 提出 了 基于 属性 的 加 密 方 
案 , 并 阐明 了 属性 加 密 的 概念 和 意义 。 

在 属性 加 密 机 制 中 ,用 户 身 份 信息 被 泛 化 为 用 户 身份 相关 的 属性 。 根 据 密 文 和 密 钥 的 
表现 形式 和 应 用 场景 的 不 同 , 可 以 将 其 划分 为 密 钥 策略 属性 基 加 密 (Key-Policy Attribute- 
Based Encryption,KP-ABE) 和 密 文 策略 属性 基 加 密 (CipherPolicy Attribute-Based Encryption. 
CP-ABE) 。 

在 文献 [24] 中 ,Goyal 等 人 首次 提出 了 KP-ABE 的 概念 。 它 将 可 描述 的 一 组 属性 与 密 
文 相 联系 ,解密 密 钥 用 策略 树 来 约束 , 当 访 问 控制 策略 树 能 够 匹配 属性 后 ,解密 者 才能 获取 
解密 密 钥 。 在 KP-ABE 方案 中 ,加 密 方 对 明文 没有 任何 的 控制 权 , 因 此 适合 于 大 规模 网 络 
环境 下 的 密 钥 管理 9 。 

2007 年 ,Bethencourt 4$ AU?" iili T CP-ABE 的 概念 。 在 CP-ABE 中 ,访问 控制 策略 
树 与 密 文 相 联系 ,解密 密 钥 用 一 组 可 描述 的 属性 来 约束 , 当 解 密 方 拥有 的 属性 匹配 策略 树 成 
功 时 才能 获得 解密 密 钥 。 与 KP-ABE 相 比 ,CP-ABE 更 适合 于 大 规模 环境 下 的 访问 控制 。 
在 该 方案 中 ,用 户 的 密 钥 与 属性 集合 相关 , 密 文 和 访问 结构 相关 ,因此 能 够 很 好 地 用 于 云 存 
储 的 密 文 访问 控制 。 目 前 学 术 界 对 ABE 在 云 计算 和 云 存储 环境 下 的 应 用 大 部 分 都 采用 
CP-ABE 算法 。 在 文献 [32] 中 ,Pirretti 等 人 提出 在 应 用 CP-ABE 算法 时 扩展 一 个 用 户 属 
性 , 即 为 该 属性 贴 上 一 个 终止 时 间 。 但 该 方案 的 缺陷 是 : 用 户 需要 周期 性 地 向 认证 中 心 申 
请 私 钥 ,导致 其 效率 较 低 ,并 且 在 终止 时 间 之 前 .用 户 的 权限 无 法 撤销 。 文 中 , Pirretti 等 人 
指出 了 属性 加 密 机 制 在 分 布 式 存储 和 社交 网 络 等 更 广泛 领域 的 应 用 。 
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关于 KP-ABE 与 CP-ABE 两 种 属性 基 加 密 的 区 别 , 房 梁 等 在 文献 [33] 中 进行 了 总 结 。 
设 属性 基 加 密 方 案 包 括 4 个 多 项 式 算 法 (Setup,Enc,KeyGen,Dec) ,每 个 算法 的 输入 与 输出 
WK 4-1 Bm. 


# 4-1 KP-ABE 5 CP-ABE xt bt 


算 法 KP-ABE CP-ABE 
— In | 安全 参数 ,属性 空间 与 用 户 空间 大 小 | 安全 参数 ,属性 空间 与 用 户 空间 大 小 
Onut | 公 钥 参数 PK 公 钥 参数 PK 
in | 主 密 铀 MK AH PK ,信息 M 和 属 | 主 密 钥 MK , 公 钥 PK ,信息 M 和 访问 结构 A 
Enc 性 集合 7 
Out | 加 密 数 据 CT 加 密 数据 CT 
KeyGen In | 主 密 钥 MK ,访问 结构 A , 公 钥 PK 主 密 钥 MK ,属性 集合 Y 
Out | 解密 密 钥 D 用 户 私 钥 SK 
"- In | AH PK ,加 密 数 据 CT ,解密 密 钥 D | AH PK ,加 密 数据 CT JH A SK 
Onut | 原始 消息 M 原始 消息 M 


关于 属性 加 密 机 制 的 研究 还 包括 改进 计算 效率 "9 ,访问 策略 隐藏 "中 和 匿名 身份 验 
证 67 等 方面 。 

由 于 单 授权 机 构 存在 不 利于 系统 规模 扩充 及 可 以 获取 用 户 信息 等 问题 ,Chasec5 首 次 提 
出 多 授权 机 构 属 性 基 加 密 (Multi-Authority Attribute Based Encryption. MA-ABE) J R. 

Lewko 和 Waters? f i 41 aX AY Jii lE JE Jl 8$ (Decentralized ABE) 方 案 , 并 采用 双重 
加 密 的 安全 证 明 方法 证 明了 方案 的 安全 性 。 该 方案 摆脱 了 Chase 方案 9 的 中 心机 构 的 瓶 
颈 问题 。 

为 了 进一步 提高 ABE 方案 的 加 密 、 解 密 计算 效率 ,Guo 等 人 [四 受 Even 等 人 提出 的 
在 线 -离线 (Online-Offline) 签 名 算法 的 启发 ,首次 提出 了 基于 身份 的 Online-Offline 加 密 方案 。 

随后 ,Hohenberger 和 Waters” fi Hj Rouselakis 和 Waters? 的 属性 基 加 密 方案 ,首次 
提出 了 Online-Offline 属性 基 加 密 方案 。 该 方案 把 所 有 的 配对 操作 移交 到 离线 阶段 去 处 
理 ,从 而 大 大 减少 了 在 线 阶段 的 计算 开销 。 

虽然 Online-Offline! 久 和 转换 密 钥 技术 "外 可 以 通过 预 处 理 及 外 包 解 密 " 了] 的 方式 来 
降低 用 户 端 加 密 和 解密 的 计算 开销 ,但 预 处 理 方式 需要 在 离线 加 密 阶 段 确定 访问 结构 ,实际 
上 不 同 数据 的 访问 结构 并 不 相同 ,也 不 便于 提前 确定 ; 外 包 解 密 方式 把 解密 外 包 到 不 完全 
可 信 的 第 三 方 ,不 能 保证 解密 的 正确 性 。Shao 等 人 "利用 转换 密 钥 技术 和 在 线 / 离 线 属性 
加 密 原 诸 的 技术 ,提出 了 一 个 应 用 于 移动 云 计算 数据 的 共享 方案 。 该 方案 可 以 不 用 提前 确定 
访问 结构 ,但 是 用 户 的 属性 集合 只 受到 一 个 属性 授权 机 构 的 管理 ,不 利于 系统 规模 的 扩充 。 

在 文献 [48] 中 , 冯 登 国 等 人 系统 地 论述 了 当前 属性 密码 学 的 研究 现状 和 发 展 趋势 ,并 就 
主流 研究 工作 进行 了 深入 探讨 和 分 析 , 包 括 属 性 密码 学 基本 概念 、 可 证 明 安 全 的 方案 和 近年 
来 的 研究 进展 情况 。 苏 金 树 等 人 "外 也 对 属性 基 加 密 机 制 进行 了 综述 。 
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4.3 云 存 储 系统 访问 控制 相关 研究 


纵 观 云 计算 与 云 存 储 的 服务 体系 ,IaaS、PaaS 和 SaaS 都 需要 通过 访问 控制 技术 来 保护 
相关 信息 资源 ,因此 访问 控制 是 贯穿 于 各 层 之 间 的 一 种 安全 技术 。 

各 大 云 计算 与 云 存 储 服务 提供 商 在 构建 去 平台 和 提供 云 服务 的 过 程 中 也 对 现 有 的 访问 
控制 技术 进行 了 尝试 和 实践 。 本 章 将 从 学 术 界 和 产业 界 两 个 方面 对 目前 云 存储 环境 下 的 访 
问 控制 技术 的 研究 和 实践 进行 介绍 。 


4.3.1 研究 概述 


由 于 云 计算 的 特殊 性 , 云 环境 下 的 访问 控制 技术 较 之 传统 的 访问 控制 技术 更 为 关键 ,用 
户 要 使 用 云 存 储 和 计算 服务 ,必须 要 经 过 云 服 务 商 CSP 的 认证 ,而 且 要 采用 一 定 的 访问 控 
制 策略 来 控制 对 数据 和 服务 的 访问 。 各 级 提供 商 之 间 需 要 相互 的 认证 和 访问 控制 ,虚拟 机 
之 间 为 了 避免 侧 通道 攻击 ,也 要 通过 访问 控制 机 制 加 以 安全 保障 。 因 此 , 云 计 算 中 的 身份 认 
证 和 访问 控制 是 一 个 重要 的 安全 研究 领域 。 

当前 的 研究 主要 集中 在 云 计算 与 云 存储 环境 下 访问 控制 模型 .基于 密码 学 的 访问 控制 、 
虚拟 机 访问 控制 等 方面 。 

其 中 关于 访问 控制 的 粗细 粒度 的 划分 方法 是 : 把 控制 到 主机 一 级 的 方式 称 为 粗 粒度 的 
访问 控制 ,把 控制 细 化 到 目录 ,文件 .Web 页 面 一 级 的 称 为 细 粒 度 访问 控制 。 

因为 云 存储 服务 器 不 完全 可 信 , 数 据 拥有 者 在 将 数据 存储 到 云 服 务 器 之 前 ,需要 先 对 其 
进行 加 密 处 理 , 通 过 控制 用 户 对 解密 密 钥 的 获取 权限 来 实现 访问 控制 的 目标 。 

为 了 安全 地 分 发 解密 密 钥 给 授权 用 户 ,通常 使 用 以 下 3 种 方式 。 

CD 通过 数据 拥有 者 分 发 : 在 这 种 方式 下 , 云 服务 器 在 任何 情况 下 都 不 接触 任何 形式 
的 密 钥 ,因此 安全 性 较 高 ,不 过 要 求 数据 拥有 者 一 直 在 线 。 

(2) 将 密 钥 加 密 后 通过 云 服 务 器 分 发 : 密 钥 经 加 密 后 存放 在 云 中 ,数据 共享 者 访问 数 
据 时 需要 先 从 云 中 获取 到 数据 密 文 和 加 密 后 的 密 钥 ,然后 通过 某 种 约定 的 方式 解密 密 钥 , 然 
后 解密 数据 。 也 即 通常 所 说 的 基于 密码 学 的 访问 控制 方式 ,这 是 云 计 算 与 云 存 储 环 境 下 最 
常用 的 方式 。 

(3) 通过 第 三 方 机 构 进行 分 发 : 该 方式 结合 以 上 两 种 方式 的 优点 ,但 对 应 用 场景 的 依 
赖 较 强 ,因此 大 都 出 现在 某 些 特定 的 应 用 中 。FADE5 系统 和 Corslei?" 系统 使 用 一 个 可 
信和 的 第 三 方 服务 器 来 集中 管理 密 钥 。 

基于 密码 学 的 访问 控制 方案 的 安全 性 依赖 于 密 钥 的 安全 性 ,从 而 可 以 用 于 不 可 信 的 云 
计算 与 云 存 储 环 境 。 该 方案 通过 加 密 数据 ,控制 用 户 对 密 钥 的 获取 来 实现 访问 控制 ,使 只 有 
具备 相应 密 钥 的 授权 人 员 才 能 解密 密 文 。 

根据 采用 的 密码 学 算法 ,基于 密码 学 的 访问 控制 方案 可 以 划分 如 下 。 

(1) 基于 对 称 密码 算法 的 访问 控制 方案 : 该 方案 主要 采用 选择 加 密 (Selective Encryption) 
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(2) 基于 非 对 称 密码 算法 的 访问 控制 方案 : 分 为 单一 加 密 策略 和 混合 加 密 策略 两 种 ， 
其 中 单一 加 密 策略 主要 包括 基于 属性 的 加 密 和 基于 代理 重 加 密 , 基 于 混合 加 密 策略 方案 将 
多 种 加 密 策略 结合 起 来 用 于 实现 访问 控制 。 

根据 以 上 分 类 ,下 文 将 对 这 些 访问 控制 方案 进行 详细 介绍 ,从 基于 对 称 密码 的 访问 控 
制 . 基 于 属性 加 密 的 访问 控制 .产业 界 的 实践 到 其 他 相关 研究 。 


4.3.2 基于 对 称 密码 的 访问 控制 


密 文 访问 控制 的 概念 最 早 由 Kallahalla 等 人 "1 提出 ,他 们 首次 将 访问 控制 的 安全 性 建 
立 在 密 钥 安 全 的 基础 上 。 他 们 提出 一 个 不 可 信和 存储 环境 下 的 安全 文件 共享 系统 Plutus ,该 
系统 采用 了 双 层 加 密 机 制 ,每 个 文件 都 会 采用 一 个 对 称 密 钥 加 密 , 在 共享 时 这 些 文 件 会 被 
组 织 为 “组 ”, 并 产生 一 个 组 密 钥 负责 对 每 个 文件 的 加 密 密 钥 进 行 加 密 。 文 件 密 文 和 对 应 
的 加 密 密 钥 的 密 文 被 存储 在 不 可 信 的 存储 服务 器 上 ,而 组 密 钥 则 被 单独 分 发 给 需要 共享 
的 用 户 。 

Plutus 里 面 提出 的 基本 概念 被 很 多 的 后 续 研 究 者 利用 .但 是 随 着 “组 ”的 增长 ,其 密 钥 
数量 也 将 线性 增长 。 针 对 这 个 问题 ,Ateniese 等 人 9 提出 了 基于 代理 重 加 密 技术 的 访问 控 
制 方案 。 代 理 重 加 密 的 概念 由 Blaze AC e 1998 年 提出 , 即 一 个 代理 可 以 利用 由 Alice 
生成 的 代理 重 加 密 密 钥 ,将 由 Alice 公 钥 加 密 的 密 文 直接 转换 为 用 Bob 私 钥 可 以 解密 的 密 
文 ,并 且 代 理 不 能 获得 关于 密 文 所 对 应 明文 的 任何 信息 。 在 Ateniese 等 人 的 方案 中 ,将 每 
个 文件 用 对 称 密 钥 加 密 ,再 将 该 加 密 密 钥 用 文件 属 主 的 主 密 钥 加 密 。 文 件 属 主 在 进行 文件 
分 享 时 ,需要 用 自己 的 主 密 钥 与 目的 用 户 的 公 钥 一 起 产生 一 个 代理 重 加 密 密 钥 ,而 服务 器 将 
利用 该 代理 重 加 密 密 钥 对 密 文 进行 转换 ,使 得 密 文 只 有 目的 用 户 才能 解密 。 

这 些 研 究 工作 虽然 一 定 程 度 上 满足 了 数据 在 缺少 可 信任 机 构 的 环境 下 的 访问 控制 需 
求 , 但 要 实现 细 粒 度 和 灵活 的 访问 控制 ,其 密 钥 管理 非常 复杂 且 计算 开销 也 很 大 。 

基于 对 称 密 码 算法 的 云 计 算 与 云 存 储 环境 下 的 访问 控制 模型 的 架构 如 图 4-1 所 示 。 通 
常 包 括 3 个 实体 : 数据 拥有 者 、 用 户 和 云 存储 服务 器 。 数 据 拥 有 者 将 加 密 文件 和 用 于 实现 
访问 控制 的 公开 信息 存储 于 云 服 务 器 ,用 户 可 随时 将 存储 于 云 服 务 器 的 加 密 文 件 和 公开 信 
息 下 载 至 本 地 ,这 样 数据 拥有 者 就 不 用 一 直 在 线 。 


a 


eo Finca ITI I 
加 密 文件 上 传 加 密 文件 和 公开 信息 ”全 
公开 信息 2 
数据 拥有 者 a 
KF n 


图 4-1 基于 对 称 密码 算法 的 访问 控制 模型 
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在 上 一 小 节 介 绍 了 基于 对 称 密码 的 访问 控制 主要 利用 选择 加 密 (Selective Encryption) 
算法 实现 。 为 了 实现 对 加 密 数据 的 访问 控制 ,最 直接 的 方法 就 是 将 文件 加 密 密 钥 分 发 给 每 
一 个 被 授权 的 用 户 ,但 是 这 将 给 数据 拥有 者 带 来 繁重 的 密 钥 管理 开销 。 选 择 加 密 采用 对 称 
密 钥 推导 图 的 形式 进行 密 钥 分 发 ,可 有 效 减 轻 数 据 拥 有 者 的 密 钥 管 理 负 担 。 

2007 年 ,Vimercati 等 人 "中 首次 提出 选择 加 密 采 用 不 同 的 对 称 密 钥 加 密 不 同 的 文 
件 ,将 具有 相同 授权 用 户 的 文件 采用 同一 对 称 密 钥 加 密 。 每 个 共享 数据 的 用 户 只 需要 保 
存 一 个 对 称 密 钥 作 为 用 户 密 钥 ,选择 加 密 根据 访问 控制 策略 生成 的 密 钥 推导 图 进行 密 钥 
分 发 。 

密 钥 推导 图 一 般 由 若干 顶点 和 若干 有 向 边 组 成 ,由 有 向 边 的 出 发 顶点 的 顶点 密 钥 可 推 
导出 终端 顶点 的 顶点 密 钥 。 数 据 拥有 者 将 每 个 共享 用 户 和 每 个 文件 的 授权 用 户 集合 视 为 密 
钥 推 导 图 中 的 一 个 顶点 ,利用 访问 用 户 集合 的 包含 关系 生成 密 钥 推导 图 。 

为 了 将 密 钥 推 导 图 中 的 密 钥 推 导 关 系 转换 为 用 于 密 钥 分 发 的 公开 信息 ,数据 拥有 者 首 
先 为 每 个 密 钥 分 配 一 个 标签 ,并 为 每 条 有 向 边 生 成 一 个 对 应 的 令 牌 。 令 牌 包括 3 个 部 分 : 
密 文 、 密 文 的 解密 密 钥 的 标签 和 解密 密 文 后 可 获取 的 密 钥 的 标签 。 

为 了 让 共享 用 户 快速 找到 获取 目标 密 钥 的 令 牌 路 径 ,数据 拥有 者 还 将 生成 一 个 用 户 密 
钥 标 签 列 表 和 文件 解密 密 钥 标签 列表 。 数 据 拥 有 者 将 用 户 密 钥 标签 列表 文件 解密 密 钥 标 
签 列 表 和 令 牌 列 表 作 为 公开 信息 存储 在 云 存储 服务 器 上 ,使 共享 用 户 可 根据 其 用 户 密 钥 和 
公开 信息 推导 出 其 访问 权限 范围 内 的 文件 的 解密 密 钥 。 

因为 全 部 基于 对 称 密码 技术 ,选择 加 密 算 法 成 为 一 种 具有 细 粒 度 访 问 控制 、. 密 钥 管 理 计 
算 开 销 小 、 密 钥 分 发 效率 高 的 适用 于 云 存 储 服务 的 访问 控制 机 制 。 

但 是 ,由 于 选择 加 密 机 制 的 公开 信息 可 以 被 任何 人 读 取 ,攻击 者 可 利用 公开 信息 恢复 出 
密 钥 推导 图 ,从 而 得 到 数据 拥有 者 的 访问 控制 策略 。 

此 后 ,Vimercati 4 ATIA Jiang 等 人 5 在 将 选择 加 密 用 于 外 包 数 据 安全 方面 做 了 一 
系列 的 研究 工作 ,文献 L[58] 实 现 了 同时 赋予 的 用 户 读 写 权限 方案 ,文献 L[60] 提 出 了 一 种 双 头 
层 结构 ,可 实现 访问 控制 策略 的 高 效 更 新 。 

最 近 , 雷 蕾 等 人 5 提出 了 一 个 支持 策略 隐藏 的 基于 选择 加 密 的 云 存储 访问 控制 方案 。 
该 方案 采用 Vimercati 等 人 中 提出 的 方法 生成 密 钥 推 导 图 ,等 价 于 访问 控制 策略 。 首 先 ， 
数据 拥有 者 将 具有 相同 授权 用 户 的 文件 采用 同一 对 称 密 钥 加 密 , 将 具有 不 同 授权 用 户 的 文 
件 采 用 不 同 的 密 钥 加 密 ,并 将 加 密 文 件 上 传 到 云 存储 服务 器 。 方 案 中 ,为 每 个 文件 设置 一 个 
唯一 的 文件 序列 号 ,使 得 云 服 务 器 和 攻击 者 不 能 根据 文件 序列 号 列表 判断 哪些 文件 具有 相 
同 的 授权 用 户 集 ,从 而 实现 了 文件 权限 信息 的 隐藏 。 但 他 们 也 指出 , 云 服 务 器 可 以 通过 记录 
每 个 共享 用 户 的 存 取 记 录 来 获取 数据 拥有 者 的 访问 控制 策略 ,但 是 可 以 通过 随机 存 取 方 法 
加 以 解决 。 


4.3.3 基于 属性 加 密 的 访问 控制 
根据 4. 2. 3 小 节 对 基于 属性 加 密 机 制 的 介绍 ,基于 属性 加 密 机 制 按照 用 户 的 属性 来 进 


70 4| 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


行 访问 控制 ,只 有 满足 特定 属性 的 用 户 才能 解密 密 文 , 用 户 能 否 解密 一 个 密 文 仅 取 决 于 他 的 
属性 是 否 满足 密 文 的 策略 ,而 与 他 是 否 在 密 文生 成 前 加 入 这 个 系统 无 关 。 而 且 服 务 器 并 不 
需要 与 每 个 用 户 交互 ,从 而 提高 了 系统 的 效率 。 其 高 效 性 动态 性 、 灵 活性 和 隐私 保护 特性 
使 得 它 特别 适合 于 云 存储 环境 下 的 细 粒 度 访问 控制 。 

同时 ,基于 属性 加 密 机 制 具有 很 强 的 安全 性 。 

CD 大 部 分 基于 属性 加 密 算法 基于 椭圆 曲线 上 的 双 线 性 对 ,从 密码 学 理论 上 破译 密码 
是 不 可 能 的 。 

(2) 基于 属性 加 密 算法 与 一 个 访问 结构 相关 联 实现 访问 控制 ,其 访问 结构 的 复杂 性 ,使 
得 攻击 者 难以 将 其 简单 地 与 一 个 困难 性 问题 结合 模拟 攻击 过 程 ,从 而 使 得 挑战 密 文 是 困 
难 的 。 

(3) 基于 属性 加 密 算法 的 私 钥 具 有 一 定 的 属性 ,不 同 的 私 钥 属 性 集合 可 能 具有 相关 的 
属性 , 私 钥 的 相关 性 让 模拟 私 钥 提 取 变 得 困难 。 

基于 属性 加 密 机 制 在 云 计 算 与 云 存储 环境 下 的 访问 控制 模型 的 架构 如 图 4-2 所 示 。 通 
常 包括 4 个 实体 : 数据 拥有 者 、 用 户 、 云 存储 服务 器 和 可 信 授 权 中 心 。 首 先 由 可 信和 授权 中 心 
生成 主 密 钥 和 公开 参数 ,将 系统 公 钥 传送 给 数据 拥有 者 ,数据 拥有 者 利用 系统 公 钥 和 访问 结 
构 对 文件 或 文件 加 密 密 钥 进行 加 密 , 将 密 文 和 访问 结构 存放 到 云 服 务 器 。 当 有 新 用 户 加 入 
系统 ,就 将 其 属性 集 传送 给 可 信和 授权 中 心 ,并 请 求 私 钥 , 可 信 授 权 中 心 根据 用 户 的 属性 集 和 
主 密 钥 生成 用 户 私 钥 发 送 给 用 户 。 用 户 需要 访问 数据 时 ,如 果 其 属性 集 满 足 密 文 的 访问 结 
构 策略 ,就 可 以 解密 密 文 。 此 架构 中 的 可 信 授 权 中 心 可 以 是 已 有 的 公 钥 基础 设施 (Public 
Key Infrastructure,PKI) 中 的 数字 证 书 认 证 机 构 (Certificate Authority. CA). 


可 信 授 权 中 心 


Es 
2 


一 访问 请 求 。 共享 用 户 1 


密 文 2 


数据 拥有 者 
4-2 基于 属性 加 密 机 制 的 访问 控制 模型 


而 关于 访问 结构 ,可 以 是 一 个 布尔 表达 式 (Boolean Expression) ,也 可 以 是 一 个 门限 树 。 
如 图 4-3 所 示 是 一 个 简单 的 访问 结构 ,根据 逻辑 表达 式 * 部 门 : 销售 "or( ABI] IT” and“ Sth 
点 : 办 公 室 ”) 来 判断 一 个 用 户 的 属性 是 否 满足 该 表达 式 , 从 而 决定 是 否 人 允许 用 户 访问 数据 。 

近 几 年 来 ,关于 属性 加 密 在 云 计算 与 云 存 储 环境 中 实现 访问 控制 的 研究 主要 包括 3 个 
方面 : 实现 细 粒 度 访问 控制 ; 四 关于 用 户 属性 与 权限 的 撤销 ; 加 多 授权 中 心 Multi- 
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密 文 


8 Eis 
部 门 ,IT， ak | 


允许 访问 
部 门 ， 销售， 地点: 家 
8 禁止 访问 
= 部 门 : IT 地 点 : 办 公 室 


部 门 : IT. Heg: 家 


4-3 一 个 简单 的 访问 结构 


Authority) 方 案 。 

Anuchart 等 人 中 提出 了 一 种 基于 OAuth 标准 和 CP-ABE 的 授权 方案 AAuth。AAuth 提 
供 端 到 端 加 密 和 基于 ABE 的 令 牌 ,使 得 数据 拥有 者 和 授权 中 心 都 可 以 对 云 服务 器 上 的 数据 
进行 认证 , 当 处 于 不 可 信 的 云 存储 环境 时 ,数据 拥有 者 可 以 控制 自己 的 数据 。 

孙 国 梓 等 人 "9 提出 基于 CP-ABE 的 云 存储 数据 安全 访问 控制 方案 ,该 方案 将 公 钥 和 私 
钥 形 式 化 为 读 写 权限 ,然后 通过 设计 密 钥 来 进行 访问 控制 。Ruj 等 人 中 提出 了 一 种 实现 隐 
私 保护 的 去 数据 访问 控制 框架 ,该 框架 要 求 数据 拥有 者 在 将 数据 存放 到 云 服 务 器 之 前 进行 
认证 ,然后 用 户 就 可 以 对 数据 使 用 ABE 加 密实 现 数据 的 访问 控制 。Zhu 等 人 5 提出 一 种 
有 效 地 使 用 ABE 实现 RBAC 访问 控制 的 去 数据 加 密 方案 。Wan 等 人 中 提出 一 种 分 层 的 
基于 CP-ABE 的 访问 控制 方案 HASBE ,利用 分 层 结构 解决 灵活 性 与 扩展 性 问题 。Wang 等 
人 :55 提出 了 一 种 将 两 个 低层 次 文件 合并 成 高 层次 文件 的 基于 属性 加 密 的 分 层 访 问 控制 
方案 。 

如 何 防止 用 户 滥 用 密 钥 , 即 如 何 追 踪 那 些 公开 自己 密 钥 的 用 户 的 问题 ,也 有 一 些 研 究 工 
feo Liu 等 人 ”中 分 别 在 白 合 和 黑 盒 追踪 场景 下 给 出 了 一 些 方案 ,但 所 提出 的 方案 的 公共 
参数 和 代价 都 与 系统 用 户 数量 相关 。 如 何 设 计 与 系统 用 户 数量 不 相关 的 可 追踪 审计 方案 是 
需要 解决 的 问题 。Ning 等 人 "中 在 这 个 方面 做 了 一 些 研究 工作 。 

云 存 储 服务 中 用 户 权 限 撤销 一 直 是 一 个 比较 困难 的 问题 ,可 能 涉及 数据 的 重 加 密 和 权 
限 的 重新 分 配 等 问题 。 在 基于 属性 加 密 算法 的 访问 控制 模型 中 ,就 涉及 用 户 属性 的 撤销 。 
通过 撤销 用 户 的 某 些 属性 ,而 让 用 户 不 能 访问 指定 数据 。 

在 最 早 的 文献 [24,32] 中 ,给 出 的 一 个 解决 思路 是 : 通过 给 每 个 用 户 分 配 一 个 终止 时 间 
的 属性 ,在 此 时 间 过 期 后 ,该 用 户 的 权限 就 被 撤销 。 

为 了 减 小 密 钥 更 新 的 开销 ,Sahai 等 人 5 提出 一 种 基于 二 又 树 的 方案 ,将 每 个 用 户 设置 
为 与 二 叉 树 的 叶 节 点 相关 ,使 得 密 钥 更 新 数量 与 用 户 数量 呈 对 数 关系 。 该 方案 结合 " 密 文 委 
JK” (Ciphertext Delegation) 提 出 一 种 高 效 的 可 撤销 的 属性 加 密 方案 。 在 该 方案 中 ,权威 机 
构 只 需要 定期 发 送 一 个 更 新 密 钥 的 广播 , 即 可 完成 密 钥 的 更 新 ,并 不 需要 用 户 与 权威 机 构 间 
进行 交互 或 存在 安全 信道 。 但 这 种 方案 也 是 一 种 “All-or-Nothing”( 要 人 么 全 有 ,要 人 么 全 无 ) 的 
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方案 ,而 实际 应 用 中 ,有 时 只 需要 对 用 户 属性 进行 细 粒 度 撤 销 而 不 是 撤销 用 户 所 有 权限 ,用 
户 身 份 的 变化 导致 其 不 再 拥有 某 个 属性 ,而 非 撤销 所 有 的 属性 。 还 有 一 种 撤销 称 之 为 "直接 
撤销 ”, 由 一 个 可 信 第 三 方 公布 撤销 用 户 的 名 单 , 用 户 在 加 密 时 直接 排除 被 撤销 用 户 来 进行 
撤销 。 文 献 [74-76] 都 针对 细 粒 度 权限 撤销 问题 进行 了 深入 研究 和 探索 ,取得 了 一 些 重要 进 
展 ,但 在 效率 方面 还 有 待 于 进一步 提升 和 改进 。 

当前 的 CP-ABE 有 一 个 缺点 , 即 “All-or-Nothing”, 要 么 授予 全 部 权限 ,要 么 就 什么 权 
限 也 不 给 。 有 鉴于 此 ,Ning 等 "首次 提出 一 个 基于 审计 中 心 和 可 撤销 CP-ABE 的 云 存储 
系统 CryptCloud 十 ,使 其 具有 白 盒 可 追溯 与 审计 功能 。 该 方案 通过 修改 密 钥 生 成 算法 ,在 
其 中 加 入 审计 列表 ,以 检测 用 户 是 否 修改 了 保密 密 钥 的 标签 ,从 而 实现 可 追溯 与 审计 功能 。 

Liang 等 人 59 提出 一 种 基于 属性 的 代理 重 加 密 方案 (Attribute-based Proxy Re- 
Encryption, ABPRE) ,通过 一 个 代理 将 密 文 从 一 种 访问 结构 策略 转换 为 男 一 种 访问 结构 策 
略 的 密 文 ,从 而 实现 权限 撤销 的 目的 。 洪 淤 等 人 中 提出 利用 CP-ABE 算法 实现 密 文 访问 控 
制 ,通过 私 钥 属性 和 密 文 属性 的 匹配 关系 确定 解密 能 力 , 简 化 了 数据 共享 中 的 密 钥 管理 。 

Yu 等 人 中 提出 了 一 种 将 CP-ABE 与 代理 重 加 密 结合 可 实现 属性 撤销 的 方案 ,该 方案 
假定 云 服 务 器 是 部 分 可 信 的 ,数据 拥有 者 将 部 分 工作 交 给 云 服务 器 执行 ,只 是 该 方案 中 访问 
结构 只 支持 “and” 门 限 。 在 文献 [81] 中 ,他 们 提出 一 种 基于 KP-ABE 的 云 计算 环境 下 的 细 
粒度 的 访问 控制 方案 ,并 利用 重 加 密 技 术 实 现 了 有 效 的 用 户 撤销 机 制 。 在 该 方案 中 ,使 用 一 
个 对 称 密 钥 加 密 文件 ,对 属性 集合 中 的 每 一 个 属性 ,在 密 文 中 增加 一 个 元 素 , 在 解密 过 程 中 ， 
这 个 元 素 将 被 用 来 恢复 文件 加 密 密 钥 。 该 方案 结合 KP-ABE、 代 理 重 加 密 和 延迟 重 加 密 等 
多 种 加 密 技 术 , 是 一 种 基于 混合 加 密 策略 的 方案 。Tang 等 人 5 提出 了 一 种 将 CP-ABE, A 
解密 和 秘密 共享 结合 的 访问 控制 方案 。Liu AO 提出 了 一 种 细 粒 度 、 基 于 时 间 及 时 更 新 
密 文 的 访问 控制 方案 。 

基于 属性 加 密 算法 的 访问 控制 在 进行 授权 时 ,用 户 的 每 个 属性 需 向 可 信和 授权 中 心 获得 
签名 私 钥 ,因此 需要 单个 授权 中 心 管 理 大 量 属性 ,从 而 导致 其 工作 量 极 大 ,可 能 会 让 授权 过 
程 效率 低下 。 多 授权 中 心 可 以 由 不 同 的 认证 中 心 来 认证 每 个 用 户 的 属性 并 保存 访问 结构 ， 
但 需要 一 个 可 信 的 授权 中 心 来 管理 和 约束 其 他 授权 中 心 。 

Chase555 最 早 提出 多 授权 中 心 的 概念 ,并 提出 一 种 多 授权 中 心 的 基于 属性 的 加 密 方案 。 
基于 该 加 密 方案 ,他 又 首次 提出 一 种 多 授权 中 心 的 基于 属性 的 签名 方案 。 为 了 防止 授权 中 
心 盗用 私 钥 , 只 让 每 个 授权 中 心 控制 一 部 分 属性 ,从 而 能 够 抵抗 伪造 与 合谋 攻击 。 该 签名 方 
案 可 以 保护 签名 者 的 私密 信息 ,并 具有 较 高 的 签名 效率 。 

Ruj 等 人 "9 提出 了 一 种 分 布 式 密 钥 分 发 中 心 (Key Distribution Center. KDC) 的 方案 。 

Yang 等 人 "9 提出 了 一 种 云 存 储 系统 中 的 多 授权 中 心 访问 控制 模型 。 在 系统 中 ,为 每 
个 用 户 分 配 一 个 唯一 的 用 户 标识 符 (UID) 和 一 个 唯一 的 授权 标识 符 (AID) ,UID 和 AID 都 
由 可 信 的 证 书 颁发 机 构 (CA) 签 发 。 为 了 防止 多 个 用 户 合谋 来 访问 数据 ,被 CA 认证 过 的 
UID 要 和 密 钥 一 起 使 用 才能 对 数据 进行 解密 。 随 后 .他 们 又 提出 了 一 种 云 存储 系统 中 的 多 
授权 中 心 的 访问 控制 方案 DAC-MACSP" ,该 方案 使 用 基于 令 牌 的 方法 来 管理 各 个 授权 中 
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心 ,并 实现 了 高 效 的 属性 撤销 。 此 后 ,他们 还 对 相关 问题 进行 了 进一步 的 研究 "9 。 

Liu 等 人 "9 提出 了 一 种 云 计 算 系 统 中 外 包 数 据 的 层次 化 的 基于 属性 的 访问 控制 方案 ， 
该 方案 在 CP-ABE 的 基础 上 加 入 了 属性 基 签 名 (Attribute Based Signature, ABS) ,将 多 授 
权 中 心 分 层 管理 ,每 层 授权 中 心 完 成 不 同 的 功能 ,实现 权限 授予 和 粗 粒 度 的 资源 访问 控制 。 

仲 红 等 5 提出 了 一 种 高 效 的 可 验证 的 多 授权 中 心 的 基于 属性 加 密 的 云 存储 数据 访问 
控制 方案 ,该 方案 不 仅 可 以 降低 加 密 、 解 密 的 计算 开销 ,同时 可 以 验证 外 包 解 密 的 正确 性 并 
且 保 护 用 户 隐私 。 他 们 提出 的 在 线 -离线 的 多 授权 机 构 属 性 基 加 密 (Online/Offline Multi- 
Authority Attribute Based Encryption,OO-MA-ABE) 方 案 把 用 户 端 在 线 计 算 代价 转移 到 
离线 阶段 或 者 云 服务 器 上 ,从 而 大 大 降低 了 用 户 端 的 在 线 计算 开销 。 在 加 密 阶段 ,用 户 利用 
加 密 密 钥 和 明文 生成 哈 希 值 作为 数据 的 验证 令 牌 ; 在 进行 解密 时 ,用 户 利用 验证 令 牌 验证 
解密 结果 的 正确 性 ,从 而 检验 云 存储 服务 器 解密 是 否 正确 。 同 时 ,该 方案 可 以 抵抗 单个 授权 
机 构 获取 用 户 的 身份 信息 ,保证 了 用 户 身份 隐私 。 

此 外 ,文献 [91,92] 也 是 关于 多 授权 中 心 的 基于 属性 加 密 的 访问 控制 方案 。 在 云 计算 与 
云 存储 系统 中 ,使 用 基于 属性 加 密 算法 实现 访问 控制 的 研究 工作 非常 丰富 ,文献 [93-97] 都 
给 出 了 非常 好 的 解决 方案 。 


4.3.4 产业 界 的 实践 


各 大 云 服务 提供 商 也 采用 了 不 同 的 访问 控制 机 制 对 自己 的 云 平 台 提 供 安 全 支持 ,下 面 
将 对 亚马逊 .微软 .谷歌 和 百度 等 几 个 主流 的 开源 云 平 台 进 行 简 单 介绍 。 

Amazon( 亚 马 逊 ) 的 云 存储 服务 平台 提供 Amazon 简单 存储 服务 (Amazon Simple 
Storage Service,S3) ,个 人 或 企业 用 户 可 以 将 自己 的 数据 存放 到 S3 云 平台 上 去 。 

S3 将 每 个 数据 对 象 存储 在 称 为 桶 (Bucket) 的 容器 中 进行 管理 ,不 仅 控制 用 户 对 数据 对 
象 的 操作 ,包括 读 、 写 .删除 等 ,也 会 控制 用 户 对 Bucket 的 操作 ,包括 罗列 对 象 . 增 加 、 移 除 对 
象 等 。Amazon 访问 控制 方式 有 4 种 ,分别 介绍 如 下 。 

(1) Amazon 身份 与 访问 管理 (Identity and Access Management. IAM); 通过 在 
Amazon 账户 之 下 创建 多 个 用 户 ,为 每 个 用 户 分 配 相应 的 安全 凭证 以 管理 他 们 的 权限 。 针 
对 特殊 权限 用 户 ,还 可 以 采用 多 因素 认证 技术 (Multi-Factor Authentication) ,并 支持 以 硬 
件 为 基础 的 验证 工具 。 

(2) 访问 控制 列表 (Access Control List. ACL); 基于 用 户 身份 与 资源 的 权限 ,以 数据 
对 象 和 桶 为 中 心 ,定义 哪些 用 户 能 够 访问 哪些 对 象 和 桶 。 

(3) 桶 策略 (Bucket Policy) : 桶 策略 不 仅 可 以 控制 访问 桶 的 用 户 , 还 可 以 控制 特定 源 
IP 地 址 的 访问 。 此 外 , 桶 策略 可 以 实现 让 其 他 账户 上 传 数据 对 象 到 桶 中 ,以 实现 跨 账户 的 
权限 控制 。 

(4) 查询 字符 串 身 份 认证 : 该 机 制 利 用 URL 与 其 他 用 户 共享 数据 对 象 时 ,通过 在 
URL 中 附加 签名 和 有 效 期 来 访问 共享 数据 。 

Microsoft Azure, 即 微软 云 是 托管 于 Microsoft 公有 云 数 据 中 心 的 云 平 台 , 由 基础 结构 
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和 应 用 程序 服务 组 成 ,并 且 集 成 了 数据 服务 .高 级 分 析 以 及 开发 人 员工 具 和 服务 ,提供 从 基 
本 计算 、 网 络 和 存储 ,到 移动 和 Web 应 用 服务 ,再 到 物 联网 等 的 完整 云 方案 。 

Microsoft Azure 的 访问 控制 管理 机 制 包括 以 下 几 个 方面 。 

(1) Azure 多 因素 认证 (Azure Multi-Factor Authentication) : 基于 多 种 因素 ,如 使 用 移 
动 应 用 ,手机 或 短信 验证 登录 等 可 选 方式 进行 认证 ,并且 使 用 安全 性 监视 和 机 器 学 习 式 报告 
来 识别 不 一 致 的 登 人 模式 ,提供 较 好 的 企业 级 安全 性 。 为 了 降低 潜在 的 威胁 ,提供 即时 警报 
向 IT 部 门 通知 可 疑 的 账号 认证 。 

(2) Azure Active Directory (Azure AD): 为 混合 企业 中 的 每 个 用 户 创 建 和 管理 单一 
标识 ,从 而 保持 用 户 .组 和 设备 同步 。 它 提供 对 应 用 程序 (包括 数 千 个 预先 集成 的 SaaS 应 
用 ) 的 单一 登录 访问 。Azure AD 在 其 自己 受 保护 的 容器 中 托管 每 个 租户 ,使 用 的 策略 和 权 
限 仅 针对 各 租户 单独 拥有 和 管理 的 容器 ,并 保存 在 该 容器 内 。 使 用 Azure AD 管理 用 户 标 
识 和 凭据 以 及 控制 访问 ,帮助 保护 企业 信息 和 个 人 信息 。 

(3) Azure Privileged Identity Management(PIM) : 为 了 满足 诊断 和 维护 需求 ,需要 使 
用 采用 实时 特权 提升 系统 的 操作 模型 。 因 为 权限 过 多 ,可 能 会 向 攻击 者 公开 账户 ; 而 如 果 
权限 太 少 , 员 工 无 法 有 效 完 成 工作 。 面 向 安全 的 公司 应 侧重 于 向 员工 提供 他 们 所 需 的 确切 
权限 ,PIM 就 可 以 实现 这 一 点 。PIM 引入 了 有 资格 管理 员 的 概念 ,有 资格 管理 员 应 是 不 时 
(但 不 是 每 天 ) 需 要 特权 访问 的 用 户 。 该 角色 处 于 非 活动 状态 ,直到 用 户 需 要 访问 权限 ,然后 
他 们 完成 激活 过 程 ,并 在 预定 的 时 间 内 成 为 活动 管理 员 。 

(4) Azure 基于 角色 的 访问 控制 (RBAC): 使 用 RBAC, 可 以 在 团队 中 对 职责 进行 分 
配 , 仅 向 用 户 授予 执行 作业 所 需 的 访问 权限 。 例 如 ,使 用 RBAC 允许 一 个 员工 管理 云 服 务 
的 虚拟 机 ,而 允许 另 一 个 员工 管理 同一 云 服务 中 的 SQL 数据 库 。 

Google 云 通过 用 户 账 号 进行 访问 控制 , 云 平台 为 每 个 用 户 提供 一 个 唯一 的 用 户 ID ,并 
给 每 个 用 户 分 配 相应 的 权限 ,也 以 此 来 识别 每 个 用 户 在 Google 云 的 活动 记录 。 

桶 是 Google 云 存储 中 存放 数据 的 最 基本 容器 ,Google 利用 桶 来 组 织 数据 ,所 有 数据 存 
放 在 桶 中 。Google 云 存储 提供 了 两 种 访问 控制 机 制 ; 

CL) 访问 控制 列表 (ACL): Google BAY ACL 中 ,主要 有 读 、 写 、 完 全 控制 3 种 级 别 的 权 
限 。 在 桶 和 对 象 的 拥有 者 未 指定 桶 和 对 象 的 ACL 时 ,系统 会 使 用 默认 的 ACL 来 控制 用 户 
访问 。 所 有 桶 默认 其 拥有 者 具有 完全 控制 权限 ,拥有 者 可 以 通过 修改 和 更 新 ACL 来 控制 
其 他 用 户 的 访问 权限 。 

(2) 查询 字符 串 认 证 : 该 机 制 不 需要 Google 账号 就 能 访问 数据 ,与 Amazon 的 查询 字 
符 串 认证 相似 ,也 是 通过 在 URL 中 附加 签名 和 有 效 期 来 访问 共享 数据 。 

百度 云 存 储 服务 目前 支持 以 如 下 两 种 方式 对 存储 资源 进行 访问 控制 。 

(D URL 签名 : 通过 对 URL 进行 签名 来 识别 访问 者 的 身份 ,从 而 实现 用 户 身 份 验 证 。 
百度 云 存 储 的 开发 者 可 根据 Access Key 和 Secure Key 对 本 次 请 求 进行 签名 ,然后 根据 签 
名 来 判断 当前 发 起 请 求 的 用 户 的 身份 。 

(2) 访问 控制 列表 (ACL): 通过 ACL 来 管理 Bucket 和 Object 的 访问 控制 权限 , 即 通 
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过 设置 Bucket Policy 和 Object Policy, 按 策略 允许 云 存 储 用 户 将 资源 (Bucket 和 Object) ff 
访问 和 控制 权限 开放 给 其 他 用 户 。 

目前 ,主流 的 开源 云 平台 包括 OpenStack、CloudStack 和 Eucalyptus。 对 寻求 灵活 性 和 
定制 化 的 客户 来 说 ,开源 云 平台 是 最 优 解决 方案 。 在 访问 控制 方面 ,它们 都 具有 很 高 的 安全 
性 ,可 以 保证 用 户 级 别 和 权限 的 有 效 区 分 以 及 虚拟 机 严格 按照 策略 进行 访问 。 它 们 的 共同 
点 是 均 设置 了 安全 组 (Security Group) ,这 里 的 安全 组 是 指 一 组 规则 (ACL 或 IPtable) 的 集 
合 。 管 理 员 或 者 授权 用 户 通过 设置 这 些 规 则 来 对 虚拟 机 的 访问 流量 加 以 限制 ,从 而 达到 访 
问 控制 的 目标 。 

综 上 所 述 , 产 业界 的 云 存储 服务 产品 都 实现 了 一 些 基 本 的 访问 控制 ,但 主要 采用 的 是 传 
统 访问 控制 技术 ,缺乏 满足 云 存储 服务 的 特殊 需求 的 访问 控制 技术 ,比如 基于 属性 加 密实 现 
细 粒 度 的 访问 控制 的 实践 。 


4.3.5 其 他 


杨 腾 飞 等 人 5 指出 传统 的 属性 加 密 通 常 有 以 下 缺点 : 加 密 密 文 存储 空间 及 加 解密 运 
算 量 随 着 属性 数目 的 增长 而 线性 增长 。 而 在 对 象 云 存 储 中 ,将 有 海量 的 属性 数目 ,属性 相关 
的 密 文 元 数据 大 小 将 限制 对 象 存储 的 元 数据 管理 ,不 利于 细 粒 度 访 问 控制 的 应 用 。 为 了 解 
决 这 个 问题 ,他 们 提出 了 一 种 对 象 云 存储 中 分 类 分 级 数据 的 细 粒 度 访问 控制 方法 ,克服 了 上 
述 的 安全 挑战 ,并 解决 了 已 有 方案 中 的 缺陷 ,利用 灵活 访问 策略 适应 了 对 象 属性 描述 的 应 用 
场景 。 

该 方案 综合 属性 加 密 机 制 .强制 访问 控制 对象 存储 各 自 的 优势 ,并 结合 分 类 分 级 的 属 
性 特点 ,提出 了 一 个 基于 安全 标记 对 象 存储 访问 控制 模型 。 在 该 模型 中 ,只 有 当 用 户 拥有 的 
安全 标记 满足 一 定 的 策略 支配 访问 数据 的 安全 标记 时 ,通过 具体 的 分 类 分 级 数据 的 属性 访 
问 控制 算法 ,用 户 才 可 以 解密 数据 。 这 里 的 访问 控制 算法 可 以 利用 对 象 数据 丰富 的 分 类 分 
级 属性 元 数据 参与 访问 控制 策略 的 运算 ,生成 固定 长 度 的 ,并 且 只 有 满足 分 类 分 级 层级 支配 
策略 的 用 户 才能 解密 访问 的 密 文 数据 。 

李 吴 等 人 在 文献 [99] 中 ,对 大 数据 及 大 数据 应 用 的 新 特点 做 了 分 析 , 并 提炼 出 这 些 新 特 
点 给 访问 控制 领域 带 来 的 5 个 迫切 需要 解决 的 新 问题 : 授权 管理 问题 、 细 粒度 访问 控制 问 
题 .访问 控制 策略 描述 问题 ,个 人 隐私 保护 问题 ,以 及 访问 控制 在 分 布 式 架构 中 的 实施 问题 。 
接着 对 相关 访问 控制 关键 技术 的 研究 现状 进行 了 梳理 ,包括 角色 访问 控制 、 风 险 访问 控制 、 
半 / 非 结构 化 数据 的 访问 控制 、 针 对 隐私 保护 的 访问 控制 、 世 系数 据 相 关 的 访问 控制 .基于 密 
码 学 的 访问 控制 等 。 

虽然 这 些 现 有 技术 不 一 定 能 直接 应 用 于 大 数据 场景 ,但 是 它们 都 可 以 被 大 数据 访问 控 
制 的 研究 所 借鉴 ,以 解决 大 数据 带 来 的 上 述 访问 控制 的 新 问题 。 在 此 基础 上 ,他 们 总 结 并 提 
炼 了 若干 大 数据 访问 控制 所 呈现 的 新 特点 : 判定 依据 多 元 化 .判定 结 果 模 糊 化 多 种 访问 控 
制 技术 融合 化 。 最 后 ,他 们 对 未 来 大 数据 访问 控制 的 研究 进行 了 展望 ,给 出 了 一 些 有 待 研 究 
的 问题 。 
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Ali 等 人 中 提出 一 个 云 中 数据 安全 共享 系统 SeDaSC。 为 了 抵抗 内 部 攻击 ,该 方案 首 
先 使 用 一 个 加 密 密 钥 加 密 文件 ,然后 将 密 钥 分 成 两 份 。 每 个 用 户 只 持 有 一 个 份额 ,另外 一 份 
存放 在 一 个 可 信 的 第 三 方 ( 也 叫 密码 服务 器 ) ,从 而 抵抗 内 部 人 员 的 合谋 攻击 。 

王 于 丁 等 人 5 在 文献 中 提出 了 一 个 基本 的 云 计算 环境 下 的 访问 控制 体系 框架 , 主要 
包括 以 下 实体 : 用 户 ( 租 户 )、 云 平台 、 网 络 基础 设施 。 用 户 ( 租 户 ) 和 云 平台 之 间 要 通过 访问 
控制 规则 和 访问 控制 模型 进行 访问 控制 。 云 平台 和 网 络 基 础 设施 大 部 分 采用 访问 控制 规 
则 。 在 云 平台 中 ,虚拟 机 之 间 要 进行 虚拟 设备 的 访问 控制 。 对 于 存储 在 云 平台 内 部 的 数据 ， 
可 以 基于 某 种 访问 控制 模型 和 基于 密码 学 的 访问 控制 手段 进行 安全 保护 。 可 信 云 平台 计算 
和 安全 监控 审计 则 是 辅助 云 环境 下 访问 控制 技术 的 必要 技术 手段 。 

房 粱 等 人 5 将 基于 属性 的 访问 控制 的 整体 流程 分 为 准备 阶段 和 执行 阶段 ,并 对 两 阶段 
面临 的 关键 问题 .研究 现状 和 发 展 趋势 做 了 分 析 。 针 对 其 中 的 实体 属性 发 现 、 权 限 分 配 关联 
关系 挖掘 ,访问 控制 策略 描述 、 多 机 构 合 作 、 身 份 认 证 ,权限 更 新 与 撤销 等 难点 问题 进行 了 深 
人 和 探讨。 最 后 ,在 对 已 有 技术 进行 深入 分 析 对 比 的 基础 上 ,指出 未 来 基于 属性 的 访问 控制 的 
研究 方向 。 

关于 云 计算 与 云 存 储 中 安全 和 访问 控制 的 研究 成 果 还 有 很 多 ,读者 可 以 参考 文献 [102- 
107]。 此 外 ,在 用 于 健康 医疗 领域 的 云 平台 上 实现 数据 共享 与 访问 控制 也 有 一 些 研究 工作 
[108,109]。 


4.4 存在 的 问题 与 未 来 发 展 方向 


综合 学 术 界 与 产业 界 对 云 存储 环境 下 身份 认证 与 访问 控制 的 研究 与 实践 ,总 结 起 来 仍 
然 存 下 如 下 问题 。 

(1) 云 服 务 提 供 商 将 大 量 IT 资源 进行 整合 的 过 程 中 使 用 了 虚拟 化 技术 ,在 将 这 些 资源 
提供 给 大 量 不 同 用 户 使 用 的 过 程 中 也 使 用 了 虚拟 化 技术 。 因 为 云 服 务 提供 商 是 不 可 信 实 
体 ,那么 如 何 避 免 虚拟 化 过 程 中 的 隐蔽 通道 ,是 访问 控制 技术 需要 解决 的 问题 。 另 外 ,仍然 
是 云 存储 环境 下 的 虚拟 化 ,使 访问 控制 技术 从 用 户 授权 扩展 到 虚拟 资源 的 访问 控制 和 云 存 
储 数 据 的 安全 访问 等 方面 ,传统 的 访问 控制 在 应 用 范围 和 控制 手段 上 不 能 满足 云 存 储 架 构 
的 要 求 。 

(2) 云 存 储 环境 下 各 类 服务 属于 不 同 的 安全 管理 域 , 当 用 户 跨 域 访问 资源 时 ,需要 统一 
考虑 安全 策略 以 实现 相互 授权 与 资源 共享 ,但 各 安全 管理 域 的 信任 管理 问题 也 是 需要 解决 
的 问题 。 另 外 , 云 存储 环境 下 ,用 户 角色 与 权限 关系 复杂 ,用 户 可 能 变动 频繁 ,管理 员 角 色 比 
较 多 并 且 层 次 复杂 ,权限 的 分 配 与 传统 计算 模式 有 较 大 区 别 , 在 将 传统 访问 控制 技术 用 于 云 
存储 系统 中 时 ,要 考虑 的 问题 更 多 。 

(3) 访问 控制 与 密 钥 .数字 签名 .证书 .认证 等 技术 的 结合 是 解决 系统 安全 访问 控制 的 
有 效 途径 ,但 在 云 存储 环境 下 ,访问 控制 已 不 仅仅 是 对 用 户 身份 的 认证 和 权限 的 限制 ,还 应 
该 体现 用 户 与 云 服 务 提供 者 之 间 的 公平 性 。 如 何在 访问 控制 之 外 制定 信誉 机 制 和 惩罚 机 制 
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成 为 一 个 需要 解决 的 问题 。 

OD 为 了 提供 更 高 的 安全 性 保障 ,用 户 有 将 数据 存放 在 不 同 的 云 服务 提供 商 的 服务 器 
上 的 需求 ,因此 也 需要 有 Inter-Cloud 访问 控制 方法 ,实现 在 Inter-Cloud 的 资源 信息 共享 访 
问 基础 上 提供 Inter-Cloud 之 间 的 相互 授权 机 制 , 使 不 同 云 内 的 用 户 可 以 相互 跨 云 访问 对 方 
的 资源 ,从 全 局 实现 对 云 中 资源 的 访问 控制 管理 ,并 保证 Inter-Cloud 环境 中 的 一 致 性 访问 
控制 。 

(5) 在 基于 属性 的 访问 控制 方法 中 ,权限 与 属性 紧密 关联 ,用 户 属性 的 变化 会 导致 其 所 
拥有 的 访问 权限 发 生 相 应 变化 ,需要 生成 新 密 钥 对 与 原 属性 相关 的 全 部 数据 进行 重新 加 密 ， 
这 将 带 来 极 大 的 计算 消耗 。 而 新 型 计算 环境 下 用 户 和 属性 的 大 规模 特征 和 属性 权限 之 间 的 
多 对 多 关系 都 进一步 增加 了 权限 更 新 的 复杂 度 ,给 设计 有 效 的 权限 更 新 机 制 带 来 新 的 挑战 。 

C60 相 比 于 密 钥 策略 的 属性 加 密 机 制 ,目前 密 文 策略 的 属性 加 密 构 造 还 有 很 多 不 足 : 
在 密 文 长 度 方面 , 现 有 方案 还 无 法 将 密 文 做 到 常数 并 同时 能 够 支持 一 般 访问 结构 ; 在 安全 
性 证 明 方 面 , 密 文 策略 的 属性 加 密 不 是 基于 标准 的 困难 问题 ,或 者 方案 效率 很 差 。 因 此 , 优 
化 密 文 策略 的 属性 加 密 方案 构造 ,也 是 一 个 具有 挑战 性 的 研究 问题 。 

(7) 在 基于 CP-ABE 的 访问 控制 方法 中 ,满足 属性 要 求 的 所 有 用 户 都 可 以 提取 密 钥 并 
解密 密 文 ,那么 任何 一 个 用 户 泄露 其 密 钥 都 会 导致 数据 不 安全 ,而 且 汇 密 者 没有 任何 风险 。 
因此 ,实现 可 追踪 的 CP-ABE 是 使 其 安全 实用 的 必要 条 件 。 此 外 ,知道 了 泄密 者 后 还 需要 
有 相应 的 撤销 机 制 , 即 撤销 泄密 者 的 解密 能 力 。 

在 云 计 算 与 云 存 储 环 境 下 ,传统 访问 控制 技术 面临 的 问题 还 不 止 以 上 所 列 的 几 方 面 。 
为 了 解决 这 些 问题 ,仍然 需要 研究 工作 者 和 产业 界 共同 努力 , 先 为 这 些 已 经 发 现 的 问题 提出 
适合 的 解决 方案 ,以 进一步 推进 云 计 算 与 云 存 储 的 快速 发 展 与 实际 应 用 。 


4.5 本 章 小 结 


本 章 对 云 存储 系统 中 的 身份 认证 与 访问 控制 技术 做 了 介绍 ,鉴于 身份 认证 技术 在 云 存 
储 环境 下 的 变化 不 大 ,所 以 重点 介绍 了 访问 控制 技术 。 首 先 介绍 了 传统 访问 控制 技术 ,然后 
介绍 了 在 云 存储 环境 下 对 访问 控制 技术 提出 的 新 的 需求 。 因 为 目前 用 于 云 存 储 系统 实现 细 
粒度 的 访问 控制 方案 大 部 分 都 是 基于 属性 加 密 机 制 ,所 以 对 与 属性 加 密 相 关 的 双 线 性 对 和 
访问 结构 进行 了 介绍 。 接 着 介绍 云 存 储 系统 访问 控制 的 相关 研究 工作 ,最 后 对 这 些 研究 工 
作 进行 总 结 ,指出 仍然 存在 的 问题 和 未 来 发 展 方向 。 
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加 密云 存储 系统 


首先 ,从 亚马逊 (Amazon) 的 AWS 客户 协议 说 起 。 亚 马 AWS HM SP HRA, 
AWS Security. Without limiting Section 10 or your obligations under Section 4. 2. we will 
implement reasonable and appropriate measures designed to help you secure Your Content 
against accidental or unlawful loss.access or disclosure. CAWS 安全 。 在 不 限制 第 10 de 
规定 或 您 在 第 4.2 条 项 下 之 义务 的 前 提 下 ,我 们 将 采取 合理 且 适 当 的 措施 , 旨 在 帮助 您 保护 
“您 的 内 容 ” 免 受 意外 或 非法 的 损失 、 访 问 或 披露 。) 

在 早期 的 亚马逊 客户 协议 中 ,对 安全 性 是 这 样 说 的 : Security. We strive to keep Your 
Content secure, but cannot guarantee that we will be successful at doing so. given the 
nature of the Internet. Accordingly. without limitation to Section 4. 3 above and Section 
11. 5 below, you acknowledge that you bear sole responsibility for adequate security: 
protection and backup of Your Content and Applications. We strongly encourage you. 
where available and appropriate. to use encryption technology to protect Your Content 
from unauthorized access. routinely archive Your Content. and keep your Applications or 
any software that you use or run with our Services current with the latest security patches 
or updates. We will have no liability to you for any unauthorized access or use.corruption. 
deletion. destruction or loss of any of Your Content or Applications. (4412, MAIR AR 
护 “ 您 的 内 容 ” 安 全 ,但 是 鉴于 互联 网 的 性 质 , 我 们 并 不 能 保证 能 够 成 功 做 到 这 一 点 。 在 不 限 
制 第 4.3 条 和 第 11.5 条 之 规定 的 前 提 下 ,您 承认 您 对 “您 的 内 容 和 应 用 程序 ”的 充分 安全 、 
保护 和 备份 负 有 唯一 责任 。 我 们 强烈 鼓励 您 ,在 适当 的 情况 下 ,使 用 加 密 技术 来 保护 “您 的 
内 容 ” 免 受 未 经 授权 的 访问 ,定期 存档 “您 的 内 容 ”, 以 及 将 您 的 应 用 程序 或 您 使 用 或 运行 的 
任何 软件 安装 最 新 安全 补丁 或 更 新 。 我 们 将 不 会 对 “您 的 内 容 和 应 用 程序 ”的 任何 未 经 授权 
的 访问 或 使 用 损坏、 删除 .销毁 或 丢失 负责 。) 

即使 新 的 协议 说 法 比较 委婉 一 些 , 但 实际 内 容 并 没有 区 别 , 亚 马 逊 只 能 实施 “合理 与 适 
当 的 措施 ”以 确保 数据 安全 和 隐私 保护 ,只 能 “尽力 而 为 ”地 保护 您 的 数据 的 安全 ,但 是 并 不 
能 保证 能 够 成 功 做 到 这 一 点 ! 但 在 协议 中 ,他 们 也 强调 使 用 加 密 技术 来 保护 数据 安全 。 

2018 年 1 月 ,印度 11 亿 公 民 身 份 数 据 库 Aadhaar 被 曝 遭 到 网 络 攻 击 , 除 了 名 字 、 电 话 
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号 码 、. 邮 箱 地 址 等 之 外 ,指纹 .虹膜 记录 等 极度 敏感 的 信息 均 遭 到 泄露 。2018 年 3 A, 
Facebook 被 曝 泄露 了 5000 万 用 户 的 个 人 资料 ,并 被 Cambridge Analytica 公司 不 正当 
利用 。 

在 中 国 , 快 递 业 、 房 产 、 教 育 培训 、 医 疗 卫 生 、 旅 游 酒店 .人才 招 聘 等 行业 的 用 户 数 据 涉及 
大 量 个 人 隐私 信息 ,包括 个 人 健康 状况 、 联 系 方式 、 简 历 、 出 行 记录 等 ,以 上 信息 的 泄露 可 能 
危及 用 户 的 人 身 安全 。 

互联 网 层出不穷 的 “泄露 门 ? 事 件 让 用 户 心 有 余 恬 ! 如 何 避 免 用 户 个 人 隐私 在 互联 网 上 
“RE” ,加密 可 能 是 最 直接 有 效 的 手段 。 在 当前 广泛 应 用 云 计 算 与 云 存储 的 时 代 , 对 存储 于 
云 上 的 敏感 数据 进行 加 密 是 必 不 可 少 的 。 因 此 ,本 章 将 对 加 密云 存储 系统 展开 介绍 。 首 先 
从 云 环 境 下 加 密 存 储 面 临 的 挑战 说 起 。 


5.1 云 环境 下 加 密 存 储 面临 的 挑战 


在 传统 信息 存储 系统 中 ,使 用 加 密 技术 保护 数据 的 机 密 性 和 个 人 隐私 是 最 常用 的 方式 ， 
但 是 在 云 存储 环境 下 ,加 密 存储 却 面临 以 下 几 方 面 的 问题 。 

CD 在 云 计算 服务 的 平台 即 服 务 (Platform as a Service,PaaS) 和 软件 即 服 务 (Software 
as a Service,SaaS) 模 式 下 ,如 果 对 存储 的 数据 进行 加 密 , 在 数据 密 文 上 进行 诸如 数据 检索 、 
简单 数据 统计 等 一 类 的 操作 都 将 变 得 困难 。 

(2) 数据 加 密 存储 可 以 使 数据 不 被 非法 访问 或 造成 数据 泄露 。 目 前 常见 的 数据 加 密 方 
法 有 对 称 加 密 、 公 钥 加 密 、 代 理 重 加 密 .广播 加 密 、 属 性 加 密 、 同 态 加 密 等 。 然 而 ,在 云 存储 环 
境 下 有 海量 的 数据 ,只 有 对 称 加 密 算法 的 开销 是 可 以 接受 的 ,其 他 密码 算法 都 会 带 来 很 大 的 
计算 开销 ,可 能 导致 系统 不 可 用 。 不 过 在 云 存 储 环境 下 有 大 量 的 用 户 ,对 称 密码 算法 的 密 钥 
管理 却 成 为 一 个 难题 。 

(3) 数据 存储 于 云 服 务 器 ,是 为 了 方便 用 户 利用 数据 ,但 是 对 数据 进行 加 密 ,无 论 是 加 
密 时 间 开 销 , 还 是 加 密 后 的 访问 过 程 , 都 会 带 来 数据 利用 的 效率 低下 。 因 此 ,如 何平 衡 安全 
性 、 效 率 与 可 用 性 是 一 个 难题 。 

针对 问题 (1) ,由 于 相同 的 数据 在 不 同 密 钥 或 加 密 机 制 下 生成 的 密 文 并 不 相同 ,数据 加 
密 存储 将 会 影响 到 云 存 储 系统 中 的 一 些 其 他 功能 ,包括 密 文 数据 搜索 、 密 态 计算 、 密 文 重复 
数据 删除 等 。 因 此 ,数据 加 密 后 怎样 对 密 文 进行 搜索 以 及 处 理 , 需 要 研究 密 文 检索 、 密 态 计 
算 、 密 文 数据 重复 删除 等 。 

针对 问题 (2) ,需要 研究 云 存 储 环境 下 数据 共享 中 的 密 钥 分 发 与 管理 机 制 。 

针对 问题 (3) ,要 解决 安全 性 ,效率 与 可 用 性 的 平衡 。 要 根据 用 户 的 实际 需求 ,同时 结合 
各 种 加 密 技 术 的 特征 ,对 云 存 储 系统 进行 综合 评估 与 设计 。 在 加 密 存 储 系统 中 常用 的 加 密 
技术 有 对 称 加 密 、 公 钥 加 密 、 代 理 重 加 密 、 广 播 加 密 、 属 性 加 密 、 同 态 加 密 等 。 更 具体 地 ,在 对 
称 加 密 与 公 钥 加 密 中 ,又 有 确定 性 加 密 与 概率 加 密 之 分 。 在 对 称 加 密 算 法 中 是 通过 使 用 链 
接 模 式 ,比如 密 文 分 组 链接 (Cipher Block Chaining,CBC) 模 式 来 实现 概率 加 密 。 而 同 态 加 
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密 又 分 为 部 分 同 态 、 类 同 态 与 全 同 态 (在 第 9 章 密 态 计算 一 节 详 述 )。 简 单 总 结 以 上 加 密 技 
术 会 有 如 下 特点 。 

。 确定 性 加 密 , 可 以 实现 等 值 比较 ,但 泄露 了 信息 的 分 布 ; 而 概率 加 密 , 汇 露 的 信息 
少 ,但 因为 相同 的 明文 被 加 密 成 不 同 的 密 文 , 因 此 不 适合 进行 密 态 计算 。 

* 对 于 同 态 密码 算法 中 的 部 分 同 态 , 只 支持 加 法 或 乘法 中 的 一 种 ,但 效率 较 好 ; 而 全 
同 态 加 密 , 虽 然 支持 任何 计算 ,但 计算 开销 比较 大 。 

* 保 序 加 密 (Order-Preserving Encryption. OPE) 和 顺序 可 见 加 密 (Order-Revealing 
Encryption, ORE) ,通常 用 于 数值 型 数据 ,支持 比较 与 范围 查询 ,但 是 会 泄露 数据 的 
顺序 信息 。 

在 CryptDB5 系 统 中 引入 了 洋葱 加 密 (Onion Encryption) , 即 对 于 一 个 数据 字段 ,采用 

多 种 加 密 方法 以 嵌 套 的 方式 逐 层 加 密 。 比 如 可 以 对 年 龄 字段 “ age” 采用 ”概率 加 密 ( 加 法 同 
态 加 密 ( 保 序 加 密 ('age'")))”。 这 是 一 种 组 合 加 密 方法 ,通常 越 外 层 的 加 密 算 法 的 安全 性 越 
强 , 但 是 功能 越 弱 。 

数据 加 密 带 来 一 个 附加 好 处 ,就 是 数据 的 删除 ,因为 目前 还 没有 可 靠 的 可 信 删 除 方案 ， 

那么 数据 加 密 存储 ,只 要 不 暴露 密 钥 , 密 文 数据 即使 不 被 服务 器 删除 ,也 不 会 泄露 数据 内 容 。 

综 上 所 述 , 在 加 密云 存储 系统 中 ,有 以 下 几 个 方面 的 问题 需要 解决 。 

(1) 加 密 数 据 共享 问题 ,主要 困难 是 云 存储 环境 下 大 量 用 户 之 间 的 授权 管理 ,以 及 大 量 

密 钥 的 分 发 与 管理 。 

(2) 加 密 数 据 搜索 问题 ,包括 数据 拥有 者 自身 的 搜索 以 及 授权 其 他 用 户 搜索 。 

C3) 加 密 数 据 处 理 问题 ,主要 是 密 态 数据 的 计算 与 统计 分 析 。 

(4) 加 密 数 据 重复 删除 问题 。 不 仅 明 文 数据 存在 重复 删除 问题 , 密 文 数据 也 存在 大 量 

重复 的 数据 ,如 何 有 效 地 删除 ,以 提高 存储 利用 率 ? 

其 中 加 密 数据 搜索 将 在 第 6 章 专门 前 述 , 密 文 数 据 处 理 在 第 9 章 专 门 介 绍 ,本 章 重 点 介 

绍 加 密云 存储 系统 的 发 展 . 加 密云 存储 系统 中 数据 共享 时 的 密 钥 分 发 与 管理 、 密 文 数据 重复 
删除 以 及 加 密云 数据 库 等 方面 的 内 容 。 

在 这 里 要 说 明 一 下 ,数据 的 机 密 性 和 隐私 性 的 意义 是 不 同 的 ,机 密 性 保护 通过 数据 加 密 

很 容易 实现 ,而 隐私 性 保护 通过 加 密 却 不 能 完全 实现 。 比 如 ,Alice 有 一 天 收 到 了 儿童 医院 
的 一 份 密 文 数据 ,数据 的 机 密 性 是 得 到 保护 的 ,但 其 个 人 隐私 却 在 这 件 事情 中 暴露 了 。 首 先 
是 Alice 有 孩子 ,而 且 生 病 了 ,这 就 是 个 人 隐私 。 有 时 候 , 数 据 的 隐私 保护 通过 加 密 并 不 能 
完全 实现 ,还 需要 专门 的 隐私 保护 方法 。 关 于 数据 的 隐私 保护 在 第 9 章 有 详细 阐述 。 


5.2 加 密云 存储 系统 的 发 展 


本 节 介 绍 加 密云 存储 系统 的 发 展 , 从 网 络 文件 系统 说 起 ,到 加 密 文 件 系统 ,然后 发 展 到 
云 环境 下 的 加 密 存 储 系统 ,并 且 介绍 了 产业 界 在 加 密云 存储 系统 方面 的 研究 与 实践 。 
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5.2.1 加 密 存储 系统 发 展 历程 


要 讲 加 密 存储 系统 ,首先 要 说 到 存储 系统 中 的 重要 组 成 部 分 一 一 文件 系统 ,加 密 存储 系 
统 其 实 就 是 实现 加 密 文 件 系统 ,而 加 密 文件 系统 的 发 展 ,首先 必须 说 到 网 络 文件 系统 。 关 于 
加 密 存储 系统 ,本 书 作 者 在 其 博士 学 位 论文 中 中 也 有 详细 介绍 ,以 下 内 容 有 部 分 摘 取 自作 者 
的 论文 。 

第 一 个 网 络 文件 系统 是 1985 年 由 Sun Microsystems 公司 提出 的 网 络 文件 系统 
(Network File System,NFS)C ,也 是 文件 共享 的 事实 上 的 标准 。NFS 早期 版 本 依靠 操作 
系统 实现 访问 控制 和 弱 认 证 机 制 ; 到 了 NFS v2, 则 已 采用 UID/GID 的 UNIX 风格 的 认证 、 
Diffie-Hellman iA iE, Kerberos v4 认证 。 

1988 年 , 卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 开发 了 Andrew 文件 系统 
(Andrew File System,AFS)5 Xf NFS v4 产生 较 大 影响 。AFS 最 初 设计 用 于 在 校园 有 
限 带 宽 的 主干 网 上 提供 可 扩展 的 文件 系统 ,主要 服务 包括 可 扩展 \ 缓 存 、 简 单 寻 址 ,后 来 发 展 
成 为 网 络 上 的 可 扩展 分 布 式 文件 系统 。AFS 支持 完全 的 自治 单元 ,每 个 自治 单元 有 自己 的 
保护 域 . 认 证 服务 器 文件 服 务 器 、 卷 定位 服务 器 、 系 统管 理 员 。 系 统管 理 员 可 以 设置 自治 单 
元 是 否 被 其 他 单元 看 见 ,支持 无 颖 的 交叉 域 文 件 共 享 。AFS 使 用 Kerberos 进行 认证 ,用 户 
认证 通过 后 ,认证 服务 器 发 给 用 户 一 个 票据 ,用 户 使 用 票据 与 文件 服务 器 进行 相互 认证 。 

NFS 和 AFS 是 开发 最 早 、 应 用 最 广泛 的 网 络 文 件 系 统 ,也 是 当时 事实 上 的 工业 标准 ， 
因此 大 量 的 加 密 文件 系统 也 是 在 NFS 和 AFS 上 实现 。 第 一 个 加 密 文件 系统 是 1993 年 由 
AT&T Bell Labs 的 Blaze 提出 的 CFS(Cryptographic File System) 9 , JARAK hit f Jn s 3c 
件 系统 相继 出 现 。 目 前 ,几乎 所 有 存储 系统 都 会 考虑 安全 。 存 储 系 统 的 演进 如 图 5-1 所 示 。 

从 图 5-1 中 可 以 看 出 ,存储 系统 从 本 地 存储 逐渐 向 网 络 存 储 转 变 , 从 集中 式 架 构 向 分 布 
式 架构 转变 ,如 从 DAS (Direct Attached Storage) 到 NAS(Network Attached Storage), 
SAN(Storage Area Network) fll OBSCObject-Based Storage) ,从 内 置 存储 向 外 购 存储 转变 
(如 eVault, Mozy 和 Amazon S3 等 ) , 即 从 私有 云 存 储 向 公共 云 存储 方式 转变 ,最 终 向 着 大 
规模 、 复 杂 的 系统 转变 ,对 于 交叉 平台 数据 共享 、 可 扩展 性 ,性 能 、 可 管理 性 和 安全 性 的 要 求 
越 来 越 高 。 

早期 的 加 密 文件 系统 是 不 支持 数据 共享 的 ,比如 最 早 的 CFS 的 主要 目标 是 以 透明 的 方 
式 给 用 户 提供 安全 文件 服务 ,而 且 不 需要 将 加 密 的 文件 考虑 成 系统 的 特别 的 部 分 。CFS 向 
客户 端 内 核 注册 成 为 一 个 NFS 服务 器 ,因此 CFS 运行 在 用 户 进程 空间 中 , 当 其 执行 加 解密 
操作 时 需要 额外 的 上 下 文 切换 ,影响 了 系统 的 效率 。 它 是 一 个 用 户 态 的 虚拟 加 密 文件 系统 ， 
可 以 挂 在 其 他 文件 系统 之 上 ,为 用 户 提供 文件 /文件 名 加 密 保护 。 另 外 ,CFS 是 一 个 本 地 文 
件 系统 , 当 用 户 需 要 与 其 他 用 户 共 享 加 密 文件 时 ,需要 亲自 将 密 钥 交 给 其 他 用 户 。 

意大利 萨 勒 诺 大 学 (University of Salerno) 开 发 的 TCFS' 是 一 个 向 用 户 提 供 加 密 服 务 
的 内 核 级 文件 系统 。 与 CFS 相似 ,TCFS 提供 端 到 端的 安全 (加 解密 在 Client 端 进 行 )。 不 
同 的 是 ,TCFS 提供 数据 完整 性 保护 ,并 且 可 以 在 一 个 组 的 用 户 间 提 供 文 件 共 享 。 用 户 必须 
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SHAROES, Foundation, 


TierStore, Tahoe 


5-1 存储 系统 的 演进 ( 源 自 文献 [3]) 


维护 一 个 口令 用 来 加 密 所 有 文件 密 钥 , 而 不 是 像 CFS 每 个 目录 一 个 密 钥 。TCFS 需要 一 个 
中 心服 务 器 进行 密 钥 分 发 ,比如 组 服务 器 。 

麻 省 理工 学 院 C(MIT) 开 发 的 自 证 明文 件 系 统 (Self-certifying File System. SFS) 是 一 
个 在 线 加 密 存储 系统 , 它 引 入 了 自 认 证 路 径 名 (一 个 包含 适当 远程 服务 器 公 钥 的 文件 名 ) ,将 
密 钥 管理 完全 从 文件 系统 中 分 离 出 来 。 在 文件 访问 期 间 ,SFS 客户 端 将 公 钥 嵌入 路 径 名 ,可 
以 验证 SFS 文件 服务 器 。SFS 的 改进 版 本 一 一 SFS-Read Only(SFS-RO)50 则 是 一 个 静态 
数据 加 密 系统 , 它 保证 客户 端 从 服务 器 上 检索 到 的 数据 是 通过 认证 的 ,并 且 与 当前 版 本 一 
致 。SFS 及 其 改进 版 本 均 是 基于 公 钥 密码 技术 。 

MIT 的 Cepheus"? Jf ERAH 次 提出 Lazy Revocation 的 思想 。Lazy Revocation 是 指 
当 撤 销 用 户 的 权限 时 ,不 立即 对 属于 该 用 户 的 文件 使 用 新 的 密 钥 重新 加 密 ,而 是 等 到 下 一 次 
文件 更 新 时 再 重新 加 密 。Cepheus 提出 了 三 方 架构 的 模式 ,由 一 个 可 信 的 第 三 方 服务 器 进 
行 用 户 密 钥 的 管理 ,引入 锁 盒 子 机 制 进行 用 户 分 组 管理 。 关 于 撤销 用 户 的 密 钥 管 理 , 文 献 
[3] 中 进行 了 有 关 的 讨论 。 相 比 用 户 撤 销 后 立即 进行 重新 加 密 的 Aggressive Revocation, Lazy 
Revocation 在 性 能 上 更 有 优势 ,但 均 需 要 重 加 密 。 

纽约 州立 大 学 石 溪 分 校 (Stony Brook University. SUNY F A ff] NCryptfs?? E] HHE 
栈 文 件 系统 技术 设计 的 共享 加 密 文件 系统 ,主要 目标 是 提供 透明 的 文件 加 密 服 务 ,无 须 过 分 
依赖 底层 操作 系统 内 核 的 具体 细节 ,具有 较 高 的 可 移植 性 。NCryptfs 提供 内 核 级 别 的 安全 
服务 ,因此 在 性 能 上 有 很 大 的 优势 。NCryptfs 通过 挂 载 点 /mnt/ncryptfs 进行 访问 ,并且 通 
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过 授权 入 口 (Authorization Entries) 管 理 系 统 的 访问 和 操作 ,每 个 授权 入 口 都 是 一 个 登录 口 
令 及 其 相关 权限 的 喻 希 值 。NCryptfs 通过 用 户 输入 的 passphrase 为 该 目录 及 其 下 的 文件 
创建 密 钥 ,该 密 钥 存储 在 内 核 中 。 当 用 户 需 要 共享 文件 时 ,必须 为 每 个 共享 用 户 关联 授权 入 
口 。 但 由 于 密 钥 是 通过 用 户 的 attach 命令 生成 的 , 当 其 他 用 户 访问 共享 文件 时 ,该 文件 的 
创建 者 必须 在 线 ,否则 无 法 事先 产生 文件 的 加 解密 密 钥 并 对 访问 者 进行 验证 。 由 于 加 密 密 
钥 一 直 都 存放 在 内 核 内 存 中 ,因此 用 户 的 撤销 不 需要 重新 加 密 , 但 是 只 能 在 同一 台 机 器 中 共 
享 文件 。 

斯 坦 福 大 学 (Stanford University) 开 发 的 SiRiUS55 被 设计 用 来 在 不 安全 的 网 络 文件 
系统 (如 NFS .CIFS .OceanStore 等 ) 之 上 提供 端 对 端的 传输 安全 。SiRiUS 假定 网 络 是 不 可 
信 的 ,对 文件 级 的 共享 提供 自己 读 写 加 密 访 问 控制 。SiRiUS 能 够 对 已 有 的 系统 提供 安全 而 
不 需要 任何 硬件 修改 的 方案 , 当 组 织 不 能 对 当前 系统 升级 ,又 必须 提供 一 定 的 安全 功能 时 ， 
SiRiUS 就 可 以 充当 一 种 临时 解决 方案 。 

Storage Technology Corporation 开发 的 SSFS0** 中 允许 属于 同一 组 织 或 不 同 组 织 的 两 
个 或 多 个 组 安全 地 共享 文件 。 除 了 加 密 和 分 布 的 访问 控制 ,SSFS 也 提供 密 钥 恢复 和 安全 
密 钥 存储 。 所 有 保密 密 钥 存放 在 智能 卡 上 ,智能 卡 会 把 所 有 密 钥 进行 加 密 。SSFS 组 服务 
器 负责 Client 认证 ,必须 一 直 在 线 , 所 以 可 能 导致 中 心 点 失效 。 系 统 中 的 公 钥 操作 导致 很 大 
的 开销 。 

另外 ,美国 哥伦比亚 大 学 (Columbia University) 开 发 的 CryptFS55 也 是 一 个 堆栈 文件 
系统 。 加 州 大 学 圣 克 鲁 效 分 校 (University of California at Santa Cruz, UCSC) 提出 的 
SNAD 权衡 了 安全 与 性 能 ,提供 多 种 完整 性 方案 。 剑 桥 大 学 (University of Cambridge) 
开发 的 StegFS"" 是 应 用 隐藏 技术 的 加 密 文件 系统 。Farsiter*" 由 多 台 分 布 式 的 不 可 信 计 算 
机 组 成 ,但 通过 一 些 安全 机 制 提 供 一 个 集中 式 文件 服务 器 的 功能 ,通过 多 副本 机 制 提供 文件 
的 可 靠 性 与 可 用 性 ,通过 加 密 来 保证 文件 内 容 保 密 性 ,同时 通过 一 个 能 防止 拜占庭 错误 的 协 
议 保证 数据 的 完整 性 。 

大 部 分 加 密 存储 系统 的 安全 方案 都 是 基于 公 钥 密码 技术 ,因此 会 带 来 较 大 的 时 间 开 销 。 
另外 ,在 加 密 存储 系统 中 ,撤销 用 户 时 存在 重 加 密 的 问题 , 重 加 密会 带 来 较 大 的 操作 开销 。 
NCryptfs 将 密 钥 置 于 内 核 内 存 虽然 避免 了 重 加 密 , 但 是 共享 极 不 方便 ,只 能 在 同一 台 机 器 
中 共享 文件 。 

惠普 实验 室 (Hewlett-Packard Labs) 开 发 的 Plutus55 的 主要 目标 在 于 给 文件 拥有 者 以 
文件 授权 的 直接 控制 的 同时 提供 高 可 扩展 性 的 密 钥 管理 。 用 户 可 以 为 自己 的 文件 使 用 密 钥 
发 布 方案 自 定义 安全 策略 和 认证 机 制 。 客 户 端 负 责 所 有 的 密 钥 分 发 和 管理 ,在 共享 过 程 中 
为 用 户 数 据 与 元 数据 提供 端 到 端的 机 密 性 和 完整 性 保护 。 对 于 每 个 文件 组 ,有 一 个 RSA A 
私 钥 对 与 其 关联 , 私 钥 部 分 叫 作 File-Signkey, 公 钥 部 分 叫 作 File-Verifykey。 读 者 (Readers) 只 
分 配 Lockbox-Keys( 加 密 文件 密 钥 ) ,而 写 者 (Writers) 除 了 Lockbox-Keys 外 还 分 配 File- 
Signkeys. 

Plutus 系统 采用 了 双 层 加 密 机 制 ,每 个 文件 都 会 采用 一 个 对 称 密 钥 加 密 。 在 共享 时 这 
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些 文件 会 被 组 织 为 “组 ”, 并 产生 一 个 组 密 钥 负责 对 每 个 文件 的 加 密 密 钥 进行 加 密 。 文 件 密 
文 和 对 应 的 文件 加 密 密 钥 的 密 文 被 存储 在 不 可 信 的 存储 服务 器 上 ,而 组 密 钥 则 被 单独 分 发 
给 需要 共享 的 用 户 。Plutus 里 面 提出 的 “文件 组 ”的 概念 被 很 多 的 后 续 研 究 者 利用 ,但 是 随 
着 “组 ”的 增长 ,其 密 钥 数 量 也 将 线性 增长 。 针 对 这 个 问题 , Ateniese 等 人 5 提出 代理 重 加 
密 的 方法 实现 密 钥 分 发 ,数据 拥有 者 使 用 对 称 密 钥 加 密 文 件 , 然 后 使 用 自己 的 公 钥 加 密 对 称 
密 钥 。 当 数据 拥有 者 要 与 其 他 用 户 共享 文件 时 ,就 使 用 自己 的 私 钥 和 授权 用 户 的 公 钥 生成 
代理 重 加 密 密 钥 ,授权 用 户 就 可 以 使 用 该 代理 重 加 密 密 钥 解密 使 用 数据 拥有 者 公 钥 加 密 的 
文件 密 钥 。 

Vimercati 等 人 5 提出 一 种 基于 密 钥 导出 方法 的 非 可 信服 务 器 数据 安全 存储 方案 , 文 
件 使 用 对 称 密 钥 加 密 ,为 了 授权 用 户 访问 文件 ,数据 拥有 者 为 授权 用 户 生成 公开 令 牌 ,授权 
用 户 可 以 使 用 自己 的 私 钥 从 令 牌 中 导出 指定 文件 的 解密 密 钥 。 服 务 器 虽然 拥有 令 牌 ,但 其 
并 不 能 从 令 牌 中 导出 解密 密 钥 。 

Tahoe[ 富 是 一 个 安全 的 分 布 式 文件 系统 ,部 署 在 一 个 商业 的 备份 服务 器 中 ,以 提供 访问 
控制 ,加 密 与 完整 性 保护 。 它 采用 了 纠 删 码 技术 进行 容错 。 

以 上 加 密 文件 系统 都 是 针对 传统 网 络 存储 系统 ,也 可 以 看 作 是 类 似 于 私有 云 存储 系统 ， 
构建 在 一 个 组 织 内 部 且 为 该 组 织 或 者 信任 该 组 织 的 用 户 提供 服务 ,可 以 由 该 机 构 或 第 三 方 
管理 。 

2010 年 ,微软 研究 院 的 Kamara 等 人 中 提出 了 面向 公共 云 的 加 密 存储 框架 ,由 数据 拥 
有 者 对 文件 进行 分 块 加 密 处 理 , 然 后 将 数据 存储 到 公共 云 服 务 器 上 ,利用 数据 审计 机 制 提供 
数据 完整 性 保护 ,同时 提供 基于 属性 的 细 粒 度 访问 控制 和 可 搜索 加 密 机 制 。Wang AP 
提出 一 种 云 环境 中 外 包 数 据 的 安全 存储 与 访问 控制 方案 ,将 数据 分 块 并 采用 不 同 的 密 钥 加 
密 数 据 块 。 

2010 年 ,Mahajan 4 AP E Depot 系统 中 提出 一 种 最 小 化 云 存储 中 可 信任 实体 的 方 
法 ,只 要 有 一 个 正确 可 访问 的 客户 端 或 服务 器 上 有 用 户 需 要 的 数据 ,用 户 就 可 以 通过 网 络 获 
取 到 正确 的 数据 。Tang 等 人 59 提 出 一 个 支持 数据 加 密 并 保证 数据 可 信 删 除 的 安全 云 存 储 
系统 FADE, 在 Amazon S3 上 实现 了 一 个 原型 系统 ,表明 FADE 支持 基于 策略 的 可 信 删 除 。 
Shraer 等 人 中 在 Venus 系统 中 提出 一 个 基于 核心 集 的 信任 体系 ,通过 三 方 架 构 的 方式 为 用 
户 提 供 安 全 功能 。 

2011 年 ,清华 大 学 高 性 能 计算 所 设计 开发 了 Corslei?? 。 这 是 一 个 栈 式 文件 系统 ,通过 
引入 可 信 第 三 方 服务 器 ,消除 用 户 对 底层 存储 系统 的 依赖 ,在 不 可 信 的 网 络 环境 下 为 用 户 提 
供 端 到 端的 数据 机 密 性 与 完整 性 保护 以 及 区 分 读 写 的 访问 控制 。Corslet 还 利用 收敛 加 密 
的 思想 提出 了 一 种 数据 自 加 密 的 方式 ,以 每 个 文件 块 的 散 列 值 与 偏 移 量 作为 密 钥 ,对 文件 块 
本 身 进行 加 密 , 以 利于 重复 数据 删除 。 

2013 年 ,Bessani 等 人 "3 提出 DepSky 系统 ,通过 对 云 中 云 (Cloud-of-Clouds) 的 加 密 、 
编码 和 备份 ,提高 云 中 数据 的 机 密 性 .完整 性 和 可 用 人 性。 

因为 无 论 是 早期 的 加 密 文 件 系统 ,还 是 云 环境 下 的 加 密 存 储 系统 ,其 核心 都 是 数据 的 加 


第 5 章 ” 加 密云 存储 系统 |P 91 


解密 与 密 钥 的 管理 和 分 发 ,所 以 实现 机 制 与 方法 是 类 似 的 。 即 使 是 在 云 存 储 环境 下 ,将 早期 
的 加 密 文件 系统 加 以 改进 ,就 可 以 应 用 于 云 环境 下 的 加 密 存 储 系统 。 这 可 能 就 是 为 什么 在 
云 存储 环境 下 ,关于 加 密 文件 系统 的 研究 工作 不 多 的 原因 。 有 了 早期 关于 加 密 文 件 系统 的 
研究 工作 ,在 云 存储 环境 下 ,更 需要 关注 加 密 存储 系统 的 实际 开发 与 应 用 。 


5.2.2 产业 界 的 实践 


目前 的 公共 云 存储 服务 提供 商都 是 一 些 大 型 的 知名 IT 公司 ,在 这 些 服务 提供 商 的 官 
方 网 站 上 有 关于 其 服务 产品 的 介绍 。 下 面 对 这 些 云 存 储 服务 中 关于 数据 加 密 的 部 分 进行 
介绍 。 

亚马逊 的 简单 存储 服务 (Amazon Simple Storage Service) 提 供 的 数据 加 密 机 制 如 下 。 

CD 提供 静态 数据 加 密 存 储 ,可 以 为 AWS 存储 和 数据 库 服 务 ( 如 EBS, S3, Glacier, 
Oracle RDS,SQL Server RDS 和 Redshift) 提供 数 据 加 密 功能 。 

(2) 灵活 的 密 钥 管理 选项 (包括 AWS Key Management Service) ,使 用 户 可 以 选择 让 
AWS 管理 加 密 密 钥 ,还 是 用 户 自己 管理 自己 的 密 钥 。 

(3) 使 用 AWS CloudHSM 的 基于 硬件 的 专用 加 密 密 钥 存储 ,使 服务 满足 合 规 性 要 求 。 

(4) AWS 提供 了 相应 的 API, 用 于 将 加 密 和 数据 保护 与 用 户 在 AWS 环境 中 开发 或 部 
署 的 所 有 服务 相 集成 。 

微软 的 Azure 提供 的 数据 加 密 机 制 如 下 。 

CD 数据 传输 加 密 : 向 Azure 存储 传输 数据 或 从 Azure 存储 读 取 数据 时 , 均 使 用 安全 
链接 HTTPS 对 传输 数据 进行 加 密 , 用 以 保障 传输 数据 安全 。 

(2) 端 到 端 加 密 : 由 数据 拥有 者 在 将 数据 传输 到 Azure 存储 之 前 对 数据 进行 加 密 , 当 
从 Azure 存储 下 载 数据 后 再 解密 数据 ,提供 数据 的 端 到 端 加 密 。 

(3) 静态 数据 加 密 : Azure 提供 3 种 方式 ,一 种 由 存储 服务 器 在 将 数据 写 和 人 Azure 存储 
时 自动 加 密 数 据 ; 一 种 是 数据 拥有 者 在 存储 数据 前 进行 加 密 ; 第 三 种 是 Azure 磁盘 加 密 ， 
允许 加 密 IaaS 虚拟 机 使 用 的 OS 磁盘 和 数据 磁盘 。 

(4) 共享 文件 时 使 用 SMB 3. 0 加 密 , 其 中 SMB 3. 0 是 指 服务 器 消息 块 (Server 
Message Block,SMB) 协 议 的 3. 0 版 本 ,是 一 种 应 用 层 网 络 传输 协议 ,主要 功能 是 使 装 有 
Microsoft Windows 的 网 络 上 的 机 器 能 够 共享 计算 机 文件 .打印 机 、 串 行 端口 和 通信 等 

(5) 文件 共享 时 ,文件 加 密 密 钥 的 授权 可 以 通过 基于 角色 的 访问 控制 ,限定 某 些 角色 用 
户 可 以 共享 该 加 密 文 件 。 

阿里 云 服务 提供 基于 硬件 密码 机 的 加 密 服 务 ,所 有 的 用 户 数 据 都 进行 加 密 存储 。 同 时 
可 以 使 用 身份 识别 卡 进行 身份 认证 ,所 有 的 加 密 服务 实例 管理 操作 都 必须 对 身份 识别 卡 进 
行 验 证 ,由 用 户 持 有 此 身份 识别 卡 ,从 而 实现 加 解密 可 控 。 数 据 加 解密 由 物理 芯片 实现 ,加 
密 过 程 无 法 被 算 改 。 其 加 密 密 钥 使 用 物理 蕊 片 加 密 保存 ,任何 人 无 法 导出 明文 密 钥 。 因 此 ， 
可 以 实现 很 高 的 数据 安全 保护 。 
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以 上 介绍 的 几 个 云 存 储 服务 除了 提供 存储 空间 外 ,还 可 以 提供 诸如 弹性 计算 .数据 库 应 
用 解决 方案 ,包括 基于 SQL 与 NoSQL 的 数据 库 应 用 。 

以 下 介绍 几 个 比较 流行 的 提供 存储 空间 服务 的 云 存储 应 用 系统 , 即 通常 所 说 的 网 盘 。 

根据 存储 数据 是 否 加 密 及 加 密 方 式 , 目 前 的 网 盘 系 统 可 以 分 为 3 类 。 
CD 没有 加 密 数 据 ,将 数据 明文 直接 存放 在 服务 器 上 ,如 iDisk. 
(2) 由 服务 器 对 数据 进行 加 密 ,并 保管 密 钥 ,如 DropBox、SkyDrive( 后 更 名 为 OneDrive) 。 
G) 由 数据 拥有 者 对 数据 进行 加 密 , 密 钥 以 分 层 加 密 的 方式 管理 ,数据 拥有 者 保管 根 密 
钥 , 其 他 子 层 密 钥 以 密 文 的 形式 存储 在 服务 器 上 ,如 SpiderOak、Wuala。 
大 部 分 的 网 盘 系统 支持 用 户 自主 加 密 , 这 种 方式 也 是 最 安全 可 控 的 。 但 是 也 有 一 些 网 
盘 系 统 支持 “在 线 重 管 数据 密 钥 ”, 因 此 让 人 怀疑 数据 密 钥 是 不 是 用 户 可 控 的 。 
DropBox 是 一 个 基于 商业 应 用 的 在 线 存 储 系统 ,底层 采用 亚马逊 的 简单 存储 服务 S3， 
通过 AES-256 加 密 算 法 对 数据 进行 加 密 存储 ,提供 了 数据 同步 及 文件 共享 等 服务 。 但 是 由 
于 DropBox 的 所 有 密 钥 均 由 服务 器 来 保管 ,很 难 真正 保障 用 户 数据 的 机 密 性 。 
OneDrive 是 微软 公司 在 其 云 存 储 平台 Azure 上 搭建 的 网 盘 系 统 , 和 DropBox 一 样 ,也 
是 由 服务 器 保管 密 钥 。 
SpiderOak 是 一 个 安全 的 云 存 储 网 盘 系 统 ,对 外 提供 数据 同步 及 共享 等 功能 。 用 户 自 
主 设置 文件 密 钥 对 数据 进行 加 密 , 并 且 由 用 户 保管 密 钥 ,因此 服务 器 得 不 到 用 户 数据 明文 。 
Wuala 是 瑞士 联邦 理工 学 院 研发 的 一 个 安全 网 盘 系 统 , 它 和 SpiderOak 一 样 ,将 数据 加 
密 后 再 上 传 至 服务 器 ,由 用 户 自 己 管理 文件 密 钥 。 但 是 SpiderOak 和 Wuala 均 提供 了 “外 
链 ” 的 数据 共享 方式 与 “在 线 重 置 密码 ?功能 ,因此 其 安全 性 还 有 待 验证 。 
Google Drive 是 谷歌 公司 推出 的 一 项 在 线 云 存储 服务 ,内置 了 Google Docs, 用 户 可 以 
实时 和 他 人 进行 协同 办 公 。 最 近 Google 又 推出 了 Google One 云 存 储 服 务 , 用 以 取代 
Google Drive, iDisk 和 Ubuntu One 均 为 与 操作 系统 相 结合 的 网 盘 系 统 ,通过 内 翌 在 操作 
系统 中 的 方式 为 用 户 提供 数据 备份 等 服务 。 其 他 网 盘 系 统 还 有 Amazon Drive、OpenStack 
的 SWIFT, 4 lli ik Depot? 等 。 
Mulazzani 等 人 5 对 一 些 主流 网 盘 系 统 进行 了 安全 性 分 析 , 指 出 除了 网 盘 服务 提供 商 
窃取 用 户 数据 之 外 ,网 盘 系 统 中 还 存在 以 下 攻击 方式 : 操纵 哈 希 值 攻击 (Hash Value 
Manipulation Attack) , fi £j fii E ID 攻击 (Stolen HostID Attack) 和 直接 下 载 攻 击 (Direct 
Download Attack) 等 。 
。 操纵 哈 希 值 攻击 : 在 网 盘 系 统 中 ,用 户 通过 计算 文件 的 哈 希 值 来 判断 该 文件 是 否 需 
要 上 传 。 如 果 攻 击 者 获取 到 某 文件 的 哈 希 值 , 然 后 告知 服务 器 要 上 传 该 文件 ,而 事 
实 上 攻击 者 并 没有 该 文件 。 在 接 到 上 传 请 求 后 ,服务 器 向 用 户 请 求 该 文件 的 哈 希 
值 , 然 后 根据 哈 希 值 判断 服务 器 中 是 否 已 有 该 文件 。 若 有 , 则 服务 器 认为 攻击 者 拥 
有 该 文件 ,攻击 者 也 不 用 上 传 文件 。 在 下 次 进行 文件 同步 时 ,攻击 者 就 可 以 从 服务 
器 中 下 载 该 文件 ,从 而 实现 了 根据 哈 希 值 获取 文件 内 容 的 攻击 。 

* 偷窃 宿主 ID 攻击 : 宿主 ID 是 网 盘 系 统 为 了 将 客户 端 和 宿主 机 绑 定 而 生成 的 唯一 
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标识 用 户 的 ID, 用 以 验证 用 户 的 身份 。 如 果 攻 击 者 通过 某 种 非法 的 方式 偷 窍 到 用 
户 的 宿主 ID ,他 就 可 以 获取 用 户 的 所 有 文件 。 

* 直接 下 载 攻击 : 通过 文件 喻 希 值 ,直接 向 服务 器 请 求 下 载 该 哈 希 值 所 对 应 的 文件 ， 
其 性 质 与 操纵 哈 希 值 攻击 相似 。 

傅 颖 勋 等 人 55 提出 一 种 云 存 储 环 境 下 的 安全 网 盘 系统 架构 ,并 在 此 架构 上 设计 实现 了 
CorsBox 系统 。CorsBox 系统 采用 的 DirTree 协议 以 最 后 修改 时 间 和 文件 版 本 号 共同 作 
用 ,取代 哈 希 值 作为 文件 上 传 的 判定 条 件 ,有效 地 防止 了 操纵 哈 希 值 攻击 和 直接 下 载 攻击 。 
该 系统 利用 宿主 ID 和 密码 同时 校 验 ,用 户 自行 保管 主 密 钥 的 方式 ,防止 偷窃 宿主 ID 攻击 。 
CorsBox 系统 还 提供 了 一 套 多 粒度 的 数据 共享 与 密 钥 管理 分 发 机 制 ,用 户 只 需 保存 一 个 主 
密 钥 和 自己 的 私 钥 就 可 以 为 共享 数据 提供 两 种 密 钥 粒 度 的 选择 ,提高 了 数据 的 机 密 性 。 同 
时 ,该 系统 使 用 了 大 数据 的 断 点 续 传 机 制 ,能 够 支持 大 数据 的 高 效 传输 。CorsBox 系统 采用 
一 种 基于 目录 树 的 同步 方式 ,在 提高 安全 性 的 同时 保证 了 共享 操作 的 最 终 一 致 性 ,安全 、 高 
效 地 实现 了 数据 明文 与 密 文 之 间 的 同步 。 测 试 结果 表明 ,CorsBox 系统 的 安全 机 制 仅 给 系 
统 带 来 了 很 少 的 额外 开销 ,在 提高 数据 安全 性 的 同时 依然 具有 良好 的 性 能 。 

随 着 云 计 算 与 云 存储 的 发 展 及 广泛 应 用 ,其 安全 问题 会 逐步 暴露 ,服务 提供 商 也 会 积极 
采取 对 应 的 安全 措施 ,因此 有 理由 相信 云 存储 服务 的 安全 性 会 越 来 越 强 , 并 且 服 务 质 量 、 用 
户 体 验 也 会 越 来 越 好 。 


5.3 数据 共享 中 密 钥 管理 


因为 数据 加 密 存储 ,数据 拥有 者 要 与 其 他 用 户 共享 数据 时 ,就 需要 将 加 密 密 钥 分 发 给 共 
享用 户 。 因 为 云 存 储 环境 下 海量 的 数据 ,数据 加 密 必须 采用 对 称 密码 算法 ,数据 的 安全 性 依 
赖 于 该 加 密 密 钥 的 安全 性 。 因 此 ,安全 高 效 的 密 钥 管理 机 制 非常 重要 。 

密 钥 管 理 包括 密 钥 的 生成 、 密 钥 发 布 以 及 密 钥 撤销 ,下 面 将 对 这 3 个 方面 进行 介绍 。 


5.3.1 密 钥 生成 与 发 布 


密 钥 生 成 的 关键 在 于 减少 需要 维护 的 密 钥 数量 ,并 且 可 以 有 效 进行 密 钥 更 新 。 通 常 有 
以 下 3 种 方式 。 

(1) 随机 生成 : 有 较 好 的 保密 性 与 可 扩展 性 ,但 是 由 于 密 钥 与 文件 之 间 没 有 任何 关系 ， 
因此 不 利于 重复 数据 删除 。 

(2) 使 用 数据 明文 的 某 种 属性 生成 密 钥 : 使 得 相同 的 数据 明文 得 到 相同 的 密 钥 ,生成 
的 密 文 也 相同 ,这 种 技术 也 称 为 收敛 加 密 技 术 ""” 。 这 种 方式 有 利于 重复 数据 删除 ,但 是 由 
于 明文 与 密 文 之 间 有 关系 ,削弱 了 安全 性 。 

(3) 通过 特殊 计算 生成 : 为 了 实现 某 种 特殊 的 功能 ,用 特殊 的 方式 生成 密 钥 。 比 如 门 
REH ,将 密 钥 分 成 ”个 份额 ,只 有 至 少 取得 m 个 份额 才能 够 解密 文件 。 

Geambasu 等 人 提出 的 Vanish 系统 "为 了 提供 可 信和 删除 的 功能 ,要 求 将 密 钥 分 成 个 
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份额 ,用 户 只 需要 取得 其 中 m 个 份额 就 能 够 解密 文件 。 通 过 特殊 计算 生成 的 密 钥 可 以 实现 
特定 的 功能 ,但 丧失 了 一 定 的 通用 性 。 

Corslet 系统 "1 利用 收敛 加 密 的 思想 提出 了 一 种 数据 自 加 密 的 方式 ,使 用 每 个 文件 块 
的 Hash 值 与 偏 移 量 作为 密 钥 ,对 文件 块 进行 加 密 。 这 种 加 密 方式 有 如 下 几 方 面 优点 : 
外 因为 密 钥 中 包含 数据 Hash 值 ,因此 生成 的 密 钥 可 以 用 来 校 验 数据 完整 性 。@ 更 新 数据 
的 同时 更 新 密 钥 。@ 相 同 的 明文 总 是 被 加 密 成 相同 的 密 文 ,适合 密 文 重复 数据 删除 。 

郭 晓 勇 等 人 5 提出 一 个 基于 收敛 加 密 技 术 的 云 安全 去 重 与 完整 性 审计 系统 ,该 系统 采 
用 基于 盲 签名 的 收敛 密 钥 封 装 与 解 封 算法 ,在 安全 存储 收敛 密 钥 的 同时 可 以 实现 收敛 密 钥 
去 重 。 他 们 提出 了 基于 收敛 密 钥 的 BLS 签名 算法 ,并 利用 可 信 第 三 方 存储 审计 公 钥 和 代理 
审计 ,来 实现 对 审计 签名 和 审计 公 钥 的 去 重 ,减轻 了 客户 端 存储 和 计算 开销 。 该 系统 能 为 去 
存储 提供 数据 隐私 保护 ,重复 认证 、 审 计 认证 等 安全 服务 ,同时 降低 了 客户 端 .云端 的 存储 和 
计算 开销 。 

密 钥 还 有 一 个 粒度 问题 , 即 加 密 的 数据 单位 。 比 如 ,是 每 个 数据 块 一 个 密 钥 ,还 是 一 个 
文件 一 个 密 钥 ,抑或 是 一 个 文件 组 一 个 密 钥 ,不同 的 粒度 ,需要 管理 的 密 钥 数量 也 不 同 。 若 
粒度 大 ,需要 管理 的 密 钥 数量 就 少 ,但 相对 来 说 安全 性 减弱 ,因为 用 户 为 了 共享 一 个 文件 ,而 
不 得 不 共享 一 组 文件 的 密 钥 。 若 粒度 小 ,需要 管理 的 密 钥 数 量 就 多 ,相对 来 说 比较 安全 ,可 
以 实现 细 粒 度 访问 控制 ,但 是 却 增 加 了 密 钥 管理 开销 。 

关于 密 钥 分 发 ,也 有 3 种 方式 。 

。 数据 拥有 者 分 发 : 这 种 方式 最 安全 可 靠 , 但 不 实用 ,要 求 数据 拥有 者 在 线 给 共享 用 

户 提供 密 钥 。 
。 基于 公 钥 密码 技术 : 通常 使 用 授权 用 户 的 公 钥 加 密 对 称 密 钥 ,将 此 加 密 后 的 密 钥 存 
放 在 云 上 ,由 云 服务 器 分 发 ,授权 用 户 使 用 自己 的 私 钥 就 可 以 取得 该 对 称 密 钥 。 

* 基于 可 信 第 三 方 : 由 一 个 可 信任 的 第 三 方 帮助 数据 拥有 者 进行 密 钥 分 发 。 

基于 公 钥 密码 技术 的 密 钥 分 发 通常 采用 的 技术 有 代理 重 加 密 、 属 性 加 密 。 关 于 属性 加 
密 机 制 在 第 4 章 有 详细 田 述 。 

1998 年 ,Blaze 等 人 提出 代理 重 加 密 " "的 概念 ,就 是 代理 人 可 以 帮助 用 户 A 为 用 户 B 
生成 密 钥 , 使 得 用 户 B 可 以 解密 用 户 A 的 密 文 ,而 在 此 过 程 中 ,代理 人 得 不 到 任何 关于 密 文 
的 信息 。 

在 云 存储 环境 下 ,Alice 希望 与 Bob 共享 一 个 加 密 的 文件 ,Alice 只 需要 给 云 服务 提供 
商 一 个 “代理 重 加 密 密 钥 ”, 云 服务 提供 商 就 可 以 将 Alice 的 加 密 文件 转换 成 Bob 可 以 解密 
的 密 文 。 其 中 的 “代理 重 加 密 密 钥 " 是 基于 Alice 的 私 钥 和 Bob 的 公 钥 生成 ,Bob 使 用 自己 
的 私 钥 来 解密 转换 后 的 密 文 。 因 为 代理 重 加 密 算 法 是 一 种 公 钥 密码 算法 ,其 计算 开销 比 
较 大 。 

为 了 提高 系统 的 可 用 性 ,在 系统 中 应 尽量 少 使 用 公 钥 密码 技术 ,但 是 基于 对 称 密码 技术 
的 方案 中 密 钥 管理 相对 复杂 。 在 本 书 作者 的 博士 学 位 论文 四 中 ,提出 了 一 个 基于 非 公 钥 密 
码 的 密 钥 共享 方案 ,但 要 将 该 方案 应 用 到 云 存 储 系统 还 需要 进行 改进 。 所 提 的 基于 对 称 密 
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码 技术 的 密 钥 协商 方案 是 Leighton-Micali (LM) 77 R“? ,使 用 一 个 公开 的 数据 库 实现 任意 
两 方 的 密 钥 协商 ,协商 过 程 描述 如 下 。 

安全 管理 器 (Securty Manager,SM) 随 机 生成 两 个 主 密 钥 K AK SPARES AP i 
发 一 个 交换 密 钥 K, 和 一 个 独立 认证 密 钥 K;。 其 中 

K,-f Ku. R= 

f (。) 是 一 个 伪 随 机 函数 ,因为 只 有 SM 拥有 和 kK“, 所 以 只 有 SM 可 以 生成 K; 和 

K;. SM 发 布 一 个 公开 的 数据 库 P 和 A ,其 中 包含 密 钥 对 和 认证 密 钥 。 生 成 过 程 如 下 
Pi, =F (Ki) OF Kiss Ajg—-fF(«Kof X, 
当 用 户 i 希望 与 用 户 j 协商 一 个 共享 密 钥 时 ,他 读 取 公开 值 P;,; 和 A;, ,并 计算 K: 
Ki, —P,,0 f (Kisj) =f (Kj. 
并 通过 如 下 的 方式 认证 密 钥 
fT, K,) =A 

E j ET DA EK, ,因为 他 拥有 保密 密 钥 K; ,并 且 知 道 用 户 i 的 标识 ID. 
如 果 存 储 空间 足够 ,参与 方 可 以 将 公开 值 P;,; BAL; 存放 在 本 地 。 

图 5-2 所 示 为 共享 密 钥 生 成 过 程 ,公开 和 矩阵 已 和 4 存放 在 SM 上 ,在 密 钥 分 发 阶段 , 任 
何 用 户 之 间 可 以 协商 一 个 保密 密 钥 (K; ) 用 于 共享 文件 密 钥 和 文件 签名 密 钥 。 


K K=h(K, i) — h(K, j) 
< 


安全 管理 器 


图 5-2 共享 密 钥 生成 过 程 


当 两 个 用 户 很 容易 地 协商 一 个 会 话 密 钥 时 ,共享 文件 密 钥 就 很 简单 ,但 具体 到 云 存储 环 
境 下 大 量 的 用 户 ,还 需要 对 此 方案 进行 改进 。 


5.3.2 PH 


当 文件 密 钥 与 其 他 用 户 共享 后 ,在 某 个 时 间 ,数据 拥有 者 可 能 不 再 希望 此 用 户 共享 此 文 
件 。 此 时 ,就 涉及 用 户 的 撤销 ,也 就 是 对 文件 密 钥 的 撤销 。 而 密 钥 撤销 涉及 数据 的 重 加 密 问 
题 , 即 需要 更 新 密 钥 , 并 使 用 新 的 密 钥 重新 加 密 文件 。 密 码 操 作对 性 能 的 影响 非常 大 ,在 设 
计 系 统 时 应 尽量 避免 密码 操作 。 
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据 MIT 的 AFS 服务 器 的 7 个 月 的 日 志 , 在 2916 个 不 同 的 ACL 中 有 29 203 个 个 体 用 
户 撤销 (包括 单个 用 户 被 删除 的 次 数 )55] ,撤销 将 引入 大 量 开 销 大 的 密码 计算 和 密 钥 发 布 操 
作 。 因 此 ,MIT 的 Cepheus"? 加 密 系 统 首次 提出 Lazy Revocation 的 思想 。Lazy Revocation 是 
指 当 撤销 用 户 的 权限 时 ,不 立即 对 属于 该 用 户 的 文件 使 用 新 的 密 钥 重新 加 密 ,而 是 等 到 下 一 
次 文件 更 新 时 再 重新 加 密 。 关 于 撤销 用 户 的 密 钥 管理 ,文献 [13] 中 进行 了 有 关 的 讨论 。 相 
比 用 户 撤销 后 立即 进行 重新 加 密 的 Aggressive Revocation ,Lazy Revocation 在 性 能 上 更 具 
优势 。 

通常 密 钥 撤销 时 重 加 密 有 以 下 几 种 方式 。 
立即 重 加 密 , 即 撤销 一 个 用 户 时 ,搜索 所 有 该 用 户 能 够 访问 的 文件 ,重新 生成 文件 密 
钥 , 重 新 加 密 所 有 文件 ,并 重新 发 布 新 密 钥 给 未 撤销 的 用 户 。 如 果 在 某 一 时 刻 撤销 
的 用 户 数 相当 多 , 重 加 密 的 开销 可 能 导致 系统 不 能 正常 工作 。 
延迟 重 加 密 , 也 叫 懒惰 撤销 (Lazy Revocation) , 即 在 下 一 次 文件 更 新 时 才 重 新 加 密 
文件 。 系 统 首先 搜索 被 撤销 用 户 拥有 访问 权限 的 文件 ,然后 使 用 新 的 密 钥 加 密 这 些 
文件 ,再 将 此 新 密 钥 发 布 给 未 撤销 的 用 户 。 那 么 在 更 新 前 ,所 有 被 撤销 用 户 有 访问 
权限 的 文件 的 密 钥 都 可 能 已 经 暴露 给 攻击 者 ,从 而 导致 数据 不 安全 。 
定时 重 加 密 ,此 方式 与 延迟 重 加 密 基 本 相同 ,而 且 在 重 加 密 的 时 刻 其 开销 也 可 能 导 
致 系统 不 能 正常 工作 。 

在 基于 属性 加 密 的 方案 中 ,第 4 章 有 讲 到 其 属性 撤销 的 研究 工作 。 延 迟 重 加 密 和 定时 
重 加 密 虽 然 可 以 减少 重 加 密 的 次 数 , 但 仍然 需要 重 加 密 。 

鉴于 密码 操作 开销 太 大 ,在 应 用 系统 中 应 尽量 避免 密码 操作 。 为 了 提高 系统 可 用 性 ,我 
们 提出 了 一 种 加 密 存 储 系统 中 避免 用 户 文件 数据 重 加 密 的 方法 及 实现 2 轨 , 其 思想 也 是 基 
于 可 信 计 算 硬件 来 实现 。 

该 方案 使 用 FPGA/ASIC 硬件 模块 来 实现 ,由 该 模块 存放 所 有 的 保密 密 钥 并 执行 相关 
的 密码 操作 ,以 保证 文件 密 钥 在 任何 时 候 都 不 会 暴露 给 用 户 , 但 用 户 可 以 使 用 该 密 钥 解密 文 
件 。 使 用 硬件 实现 密码 相关 操作 可 以 提高 性 能 并 简化 密 钥 管理 。 避 人 免 重 加 密 的 方法 可 以 以 
模块 的 形式 实现 ,然后 插入 到 任何 可 用 的 文件 系统 中 。 

撤销 用 户 时 需要 重新 加 密 数据 ,是 因为 文件 密 钥 暴 露 给 了 被 撤销 的 用 户 ,那么 如 果 不 暴 
露 文 件 密 钥 , 在 撤销 用 户 的 时 候 就 不 需要 重新 加 密 。 为 了 避免 加 密 存储 系统 中 ,撤销 用 户 时 
需要 重新 加 密 数 据 及 重新 生成 并 发 布 新 密 钥 等 一 系列 加 密 的 密 钥 


相关 操作 ,提出 一 个 避免 重 加 密 的 黑 盒 子 模型 ,要 求 文 oy “| mar | 

件 密 钥 在 任何 时 候 都 不 要 暴露 给 用 户 , 但 用 户 却 可 以 使 

用 该 密 钥 解 密 文件 。 该 模型 如 图 5-3 所 示 。 图 5-3 Marie 
对 黑 盒子 的 要 求 如 下 : 


D 黑 盒子 可 以 解密 加 密 的 文件 密 钥 ,并 使 用 此 文件 密 钥 解密 数据 。 
D 因为 用 户 不 知道 用 于 解密 文件 密 钥 的 私 钥 , 所 以 由 黑 盒子 生成 公私 钥 对 ,并 将 公 钥 
发 布 给 用 户 。 
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(3) 用 户 不 能 修改 黑 盒 子 的 数据 操作 流程 。 

现场 可 编程 门 阵列 (Field Programmable Gate Array. FPGA) 和 可 编程 专用 集成 电路 
(Application-Specific Integrated Circuit,ASIC) 在 密码 学 领域 的 应 用 研究 非常 广泛 。 使 用 
FPGA/ASIC 实现 的 密码 算法 有 AES,DES,SHA, HMAC 和 RSA 等 。 

文献 [45-48] 是 Rijndael 算法 的 早期 FPGA 实现 , 接 下 来 有 一 系列 的 实现 方案 ”9 。 
AES-ECB 128bit 使 用 FPGA 在 性 能 上 实现 最 好 的 是 Fu 等 人 的 方案 ,使 用 17 887 ME 
辑 片 ,212. 5MHz 的 时 钟 频率 ,最 高 速度 达到 27. 1Gbps。 

AES 的 第 一 个 ASIC 实现 参考 文献 [51], 随 后 也 产生 了 一 系列 的 相关 实现 方案 ”号 。 
例如 ,Hodjat 的 方案 59AES-ECB 128bit 使 用 473 000 个 门 ,606MHz 的 时 钟 频率 ,最 高 速度 
是 77. 6Gbps。Morioko [i 7; 3 ^9 AES-Feedback 使 用 168 000 个 门 ,909MHz 的 时 钟 频率 ， 
最 高 速度 是 11. 6Gbps。RSA 的 FPGA 实现 参考 文献 [56-58], ASIC 实现 参考 文献 [59,60]。 

FPGA 实现 的 优点 包括 高 速 专 用 的 硬件 结构 、 灵 活 的 软件 平台 、 较 低 的 成 本 ; ASIC 实 
现 的 特点 是 优化 结构 可 以 使 用 更 少 的 电路 ,具有 更 高 的 操作 效率 ,低能 耗 ,但 是 设计 和 实现 
复杂 、 耗 时 、 成 本 较 高 ,一 旦 实现 后 就 不 能 更 改 , 因 此 不 适用 于 经 常 改变 的 环境 。 

FPGA 通过 配置 文件 设置 工作 模式 ,其 配置 文件 是 二 进 制 文件 ,目前 还 无 反 编译 破解 方 
ik; FPGA 的 工作 模式 ,除了 设计 者 ,其 工作 模式 是 保密 的 。 而 ASIC 电路 一 旦 实现 ,就 不 
能 更 改 ,那么 可 以 把 电路 设置 成 固定 的 工作 模式 。 因 此 ,无论 是 FPGA 还 是 ASIC 芯片 都 满 
足 黑 盒子 的 要 求 。 已 经 有 大 量 的 ASIC/FPGA 密码 应 用 研究 ,性 能 相当 好 。 让 所 有 数据 流 
都 经 过 FPGA 或 ASIC 芯片 模块 来 解密 ,文件 密 钥 只 在 FPGA 或 ASIC 芯片 中 以 明文 形式 
存在 ,因此 密 钥 在 任何 时 候 都 不 会 暴露 给 用 户 。 此 外 ,在 加 密 存储 系统 中 使 用 FPGA/ASIC 
芯片 还 具有 以 下 优势 。 

CD 通过 专用 硬件 实现 密码 相关 操作 ,可 以 提高 性 能 。 

(2) 从 特定 端口 来 的 数据 直接 送 往 FPGA/ASIC 芯片 ,避免 复制 和 上 下 文 切换 。 

西北 工业 大 学 的 苗 胜 等 人 实现 了 基于 FPGA 芯片 的 硬盘 数据 加 密 系统 5 ,该 系统 支持 
常用 对 称 加 密 算法 (DES、3DES、AES) 和 用 户 自主 开发 的 各 种 对 称 加 密 算法 ,并 实现 了 一 种 
基于 FPGA 芯片 的 直 插 型 硬盘 数据 加 密 卡 ,其 对 DES 算法 的 加 解密 速度 达到 了 200Mbps。 


5.4 密 文 重复 数据 删除 


重复 数据 删除 是 一 种 数据 缩减 技术 ,通常 用 于 基于 磁盘 的 备份 系统 , 旨 在 提高 存储 系统 
的 利用 率 。 云 存储 服务 通常 依据 传输 与 存储 的 数据 量 以 及 使 用 时 间 计 费 。 对 于 用 户 来 说 ， 
希望 减少 传输 和 存储 的 数据 量 来 降低 成 本 ,这 就 涉及 重复 数据 的 删除 ; 对 于 云 服 务 提供 商 
来 说 ,也 希望 通过 重复 数据 删除 技术 节约 基础 设施 成 本 .同时 保障 用 户 数据 的 可 用 性 。 

根据 对 目前 存储 系统 中 重复 数据 删除 技术 的 研究 ,基于 数据 分 布 的 不 同 , 有 效 的 重复 数 
据 删 除 能 够 节省 高 达 50% 其 至 90%% 的 存储 空间 和 带宽 "2 。 

根据 部 署 位 置 的 不 同 , 可 分 为 客户 端 重复 数据 删除 (Client Side Deduplication. CSD) 和 
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服务 器 端 重 复数 据 删 除 (Server Side Deduplication,SSD)。 客 户 端 重复 数据 删除 是 先 删 除 
重复 数据 ,再 将 数据 备份 ; 而 服务 器 端 重复 数据 删除 是 先 将 数据 发 送 到 服务 器 ,实际 存储 时 
再 删除 重复 数据 。 

根据 被 删除 数据 的 粒度 ,重复 数据 删除 可 分 为 文件 级 重复 数据 删除 (File Level 
Deduplication,FLD) 和 块 级 重复 数据 删除 (Block Level Deduplication,BLD)。 文 件 级 重复 
数据 删除 可 以 保证 文件 不 重复 ; 而 块 级 重复 数据 删除 则 保证 数据 块 不 重复 ,是 将 文件 分 成 
数据 块 进行 比较 。 根 据 切 分 数据 块 方法 的 不 同 , 块 级 重复 数据 删除 又 可 分 为 定 长 块 重复 数 
据 删 除 和 变 长 块 重复 数据 删除 。 定 长 块 重复 数据 删除 时 ,数据 块 的 大 小 是 固定 的 ; 而 变 长 
块 重复 数据 删除 时 ,数据 块 的 大 小 是 变化 的 。 

根据 执行 数据 删除 的 文件 范围 ,可 分 为 跨 用 户 重 复数 据 删 除 (Cross User Deduplication, 
CUD) 和 本 地 重复 数据 删除 (Local Data Deduplication. LDD) 。 

重复 数据 删除 既 能 够 通过 硬件 也 可 以 通过 软件 来 实现 ,还 可 以 将 两 者 结合 来 实现 。 相 
同 地 ,重复 数据 删除 既 可 以 在 客户 端 进行 ,也 可 以 在 服务 器 端 进行 ,或 者 两 者 兼 而 有 之 。 通 
常 为 了 节省 传输 带宽 和 提高 传输 效率 ,可 以 考虑 采用 客户 端 重复 数据 删除 。 

明文 重复 数据 删除 可 以 根据 内 容 直 接 判断 是 否 为 重复 数据 ,但 数据 一 旦 加 密 ,特别 是 为 
了 保护 数据 的 机 密 性 ,通常 使 用 不 同 的 密 钥 或 者 加 入 一 些 初始 向 量 使 得 相同 的 明文 被 加 密 
成 不 同 的 密 文 , 从 而 使 得 密 文 重复 数据 删除 变 得 困难 。 

为 了 保护 数据 的 机 密 性 ,可 以 对 数据 进行 加 密 , 但 数据 加 密 的 安全 性 究竟 怎样 ? 1949 
年 ,信息 论 的 创始 人 香农 "9 从 信息 论 的 角度 提出 信息 论 安 全 (Information Theoretic Security) 
的 概念 ,从 信息 炉 的 角度 分 析 了 信息 系统 的 安全 性 。 

使 用 信息 论 安全 的 加 密 算法 对 数据 进行 加 密 后 ,对 于 一 个 没有 密 钥 的 用 户 来 说 ,将 得 不 
到 任何 关于 明文 的 信息 , 即 其 能 获得 的 信息 炉 为 0。 但 在 实际 应 用 中 ,这 样 的 算法 是 不 存在 
的 或 者 实现 的 成 本 太 高 而 不 实用 。 只 有 "一 次 一 密 ” 加 密 算法 可 以 满足 这 个 要 求 ,就 是 密 钥 随 
机 生成 而 且 只 使 用 一 次 。 不 过 ,这 样 将 使 得 共享 密 钥 与 共享 数据 明文 一 样 困 难 ,因而 不 实用 。 
所 以 在 实际 应 用 中 ,无 法 实现 信息 论 安全 的 加 密 算法 ,只 能 实现 计算 安全 (Computationally 
Secure) 的 加 密 算法 。 假 设 攻 击 者 的 计算 能 力 是 有 限 的 ,那么 所 采用 的 加 密 算法 对 于 攻击 者 
的 计算 能 力 来 说 ,是 无 法 破解 的 即 可 。 

为 了 度量 一 个 加 密 算法 的 可 计算 安全 性 ,1982 年 Goldwasser 和 Micali" 中 提出 了 语义 
安全 (Semantic Security) 的 概念 ,如 果 已 知 某 个 明文 的 密 文 不 会 泄露 任何 有 关 该 明文 的 信 
息 , 则 称 该 密 文 是 语义 安全 的 。 

香农 的 信息 论 安 全 表示 密 文 不 会 泄露 任何 明文 信息 ,而 语义 安全 则 表示 已 泄露 的 密 文 
不 会 泄露 任何 明文 信息 。 在 语义 安全 的 对 称 密码 算法 中 , 若 给 攻击 者 两 段 相 同 长 度 的 明文 
和 其 中 一 段 明文 的 密 文 ,攻击 者 不 能 分 辨 该 密 文 所 对 应 的 明文 。 

1984 年 ,Goldwasser 和 Micali^*! 证 明了 语义 安全 与 密 文 不 可 区 分 性 (Ciphertext 
Indistinguishability) 是 等 价 的 ,而 密 文 不 可 区 分 性 在 实际 应 用 时 ,更 容易 用 于 检验 加 密 算法 
的 安全 性 。 密 文 不 可 区 分 性 是 指 ,如 果 给 出 两 段 明文 ,随机 选择 一 段 明文 加 密 得 到 密 文 , 攻 
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击 者 将 不 能 区 分 该 密 文 对 应 哪 一 段 明 文 。Goldwasser 和 Micali 也 因为 他 们 在 这 方面 的 开 
创 性 工作 而 获得 2013 年 ACM 图 灵 奖 。 

要 证 明 一 个 加 密 算法 是 安全 的 ,通常 要 证 明 它 满足 密 文 不 可 区 分 性 , 即 敌 手 不 能 断定 加 
密 的 是 否 为 相同 的 数据 ,因此 安全 的 加 密 算法 , 即 满足 密 文 不 可 区 分 性 或 语义 安全 的 加 密 算 
法 是 不 支持 重复 数据 删除 的 。 

既然 安全 的 加 密 算法 不 支持 重复 数据 删除 ,而 且 因 为 不 同 用 户 的 加 密 密 钥 是 不 同 的 ,所 
以 相同 的 文件 被 不 同 的 用 户 加 密 也 将 得 到 不 同 的 密 文 ,那么 要 执行 密 文 重复 数据 删除 ,就 要 
解决 以 下 几 个 问题 。 

(1) 如 何 判定 多 个 密 文 是 否 来 自 于 相同 的 明文 , 即 如何 实 现 重复 性 检测 。 

(2) 如 何 确定 哪些 用 户 拥有 该 文件 , 即 如 何 实现 数据 拥有 证 明 。 

(3) 如 何在 不 同 的 用 户 间 共 享 被 执行 重复 数据 删除 的 文件 , 即 如 何 实现 密 钥 共 享 。 

(4) 如 何 保证 实施 方案 的 安全 性 , 即 如 何 应 对 各 类 攻击 。 

因此 ,目前 密 文 重复 数据 删除 仍然 停留 在 使 用 特殊 的 加 密 方式 ,使 得 相同 的 内 容 加 密 成 
相同 的 密 文 。 

2002 年 ,Douceur 等 人 59 提 出 基于 收敛 加 密 (Convergent Encryption) 的 密 文 重复 数据 
删除 方案 。 该 方案 将 数据 内 容 的 Hash 值 作为 密 钥 加 密 数据 ,使 得 相同 的 数据 被 加 密 成 相 
同 的 密 文 , 从 而 实现 重复 数据 删除 。 在 Douceur 等 人 中 的 工作 基础 上 ,Storer 等 人 5 研究 
了 相关 的 密 钥 管理 问题 ,提出 一 种 基于 认证 和 匿名 的 密 文 重复 数据 删除 方案 。 该 方案 利用 
收敛 加 密 技术 ,使 得 相同 的 数据 明文 的 加 密 密 钥 相同 ,因此 在 相同 的 加 密 模 式 下 生成 的 数据 
密 文 也 相同 ,这样 就 可 以 使 用 传统 的 重复 数据 删除 技术 进行 删 元 。 

此 后 ,收敛 加 密 技 术 被 用 于 很 多 重复 数据 删除 系统 中 ,如 Bitcasa(http://www. bitcasa. 
com/) ,CiphertiteChttp: / /www. ciphertite. com) ,flud http: //flud. org) ,Freenet(https:// 
freenetproject. org/) .,GNUnet(http://gnunet. org), — 5 % H AY Fd KBE. ll Dropbox, 
SpiderOak 和 Wuala 等 也 都 采用 了 重复 数据 删除 技术 。 

但 是 ,因为 基于 收敛 加 密 的 方案 的 加 密 密 钥 依 赖 于 明文 信息 ,所 以 容易 遭受 离线 穷 举 攻 
击 COffline Brute-force Attack), 

2013 年 ,Bellare 等 人 中 提出 消息 锁定 加 密 (Message-Locked Encryption, MLE) 框 架 ， 
同时 提出 PRV $ -CDA (Strong Privacy-Chosen Distribution Attacks) 安 全 性 概念 ,并 证 明 
T PRV $-CDA 比 其 他 相关 的 安全 性 更 强 。 其 中 ,PRV $ 表示 与 随机 数 不 可 区 分 ,CDA 是 
指 选 择 分 布 攻击 ,PRV$-CDA 表示 攻击 者 不 能 区 分 密 文 与 同等 长 度 的 随机 数 。 在 Bellare 
等 人 提出 的 框架 中 ,MLE 加 密 算法 中 的 密 钥 是 从 明文 计算 得 到 的 ,可 以 将 收敛 加 密 看 作 是 
MLE 的 一 个 特例 。MLE 可 以 使 相同 的 明文 被 加 密 成 相同 的 密 文 ,从 而 支持 重复 数据 删除 。 
在 MLE 框架 下 ,收敛 加 密 被 证 明 满足 PRV$-CDA 安全 性 。 但 MLE 无 法 满足 语义 安全 的 
要 求 。 

以 上 工作 也 都 没有 针对 基于 相同 明文 产生 不 同 密 文 的 问题 提出 解决 方案 。 

由 于 相同 的 文件 被 不 同 用 户 使 用 不 同 的 密 钥 加 密 后 ,相同 的 文件 被 加 密 成 不 同 的 密 文 ， 
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使 得 云 服务 器 无 法 执行 重复 数据 删除 ,因此 研究 者 们 提出 了 基于 可 信 第 三 方 的 密 文 重 复数 
JE MIR; RI, 

为 了 克服 MLE 类 型 加 密 方 案 中 存在 的 离线 穷 举 攻 击 问题 ,Bellare 等 人 提出 一 种 基于 
可 信 第 三 方 的 密 文 重复 数据 删除 方案 DupLESSU? 。 该 方案 由 第 三 方 服务 器 使 用 私 钥 对 数 
据 签名 ,然后 将 该 签名 作为 随机 数 生成 器 的 种 子 生 成 加 密 密 钥 。 该 方法 称 为 带 签 名 的 加 密 
(Encryption with Signature. EwS) 。 

收敛 加 密 和 MLE 加 密 算 法 都 属于 公开 加 密 算 法 ,任何 人 只 要 拥有 数据 ,就 可 以 生成 合 
法 的 密 文 ,所 以 它们 的 安全 性 依赖 于 数据 本 身 的 随机 性 。 并 且 MLE 加 密 算 法 允许 进行 相 
等 检测 ,所 以 只 能 保护 具有 足够 大 的 最 小 箭 (Min-Entropy) 的 数据 , 即 数据 必须 是 不 可 预测 
的 ,否则 攻击 者 可 以 从 密 文中 获取 信息 。 

针对 PRV $ -CDA 安全 性 对 于 某 些 应 用 来 说 安全 强度 不 够 ,Duan" 提出 一 种 基于 第 三 
方 服务 器 辅助 的 密 文 重复 数据 删除 方案 。MLE 加 密 算 法 采用 公开 加 密 是 为 了 让 不 同 的 用 
户 对 相同 的 明文 加 密 得 到 相同 的 密 文 ,从 而 方便 重复 数据 删除 。 而 Duan 提出 采用 第 三 方 
服务 器 辅助 的 方式 ,由 第 三 方 服务 器 为 用 户 生 成 加 密 所 需要 的 密 钥 和 初始 向 量 , 同 时 也 保证 
数据 的 收敛 特征 。 有 了 第 三 方 服务 器 ,所 有 用 户 不 再 知道 密 钥 , 从 而 不 再 是 公开 加 密 。 

该 方案 采用 Threshold Signature 技术 , 即 一 种 分 布 式 的 数字 签名 生成 方法 ,将 签名 所 
用 的 密 钥 分 布 存 储 于 多 个 节点 ,使 得 任何 小 于 1 个 节点 联合 起 来 , 既 不 能 够 计算 出 签名 的 密 
钥 ,也 不 能 够 生成 正确 的 签名 ,只 有 大 于 上 个 节点 联合 起 来 才能 够 生成 正确 的 签名 。 这 一 特 
性 使 得 Threshold Signature 既 具 有 更 高 的 安全 性 ,也 有 更 好 的 容错 能 力 。 用 在 EwS 上 , 签 
名 的 密 钥 不 再 由 单一 的 服务 器 维护 ,而 是 分 布 在 所 有 用 户 中 。 当 一 个 用 户 需 要 加 密 时 ,他 向 
大 于 上 个 其 他 用 户 发 出 请 求 , 在 足够 多 的 用 户 的 协助 下 生成 签名 ,再 使 用 EwS 方式 加 密 。 

文中 他 们 提出 了 D-IND $ -CPA 安全 性 概念 ,D-IND $ 是 指 与 随机 串 的 确定 性 不 可 区 
分 (Deterministic Indistinguishability from Random Strings). CPA 是 指 选择 明文 攻击 
(Chosen Plaintext Attacks)。 他 们 证 明 D-IND $ -CPA 的 安全 性 严格 强 于 PRV $ -CDA。 
与 PRV$-CDA 类 似 ,D-IND$ -CPA 也 意味 着 攻击 者 不 能 区 分 密 文 与 等 长 的 随机 数 , 但 D- 
IND $ -CPA 不 青 要 求 数 据 的 分 布 具 有 足够 大 的 最 小 焙 , 从 而 可 以 保护 可 预测 性 比较 高 的 数 
据 。 作 者 也 证 明了 EwS 模式 ,无 论 是 单机 的 还 是 分 布 式 的 ,只 泄露 数据 相等 的 信息 ,而 该 信 
息 是 目前 数据 去 重 手段 所 依赖 的 ,因此 表明 EwS 是 支持 去 重 条 件 下 所 能 达到 的 最 强 的 安全 
性 , 它 也 满足 D-IND $ -CPA 安全 性 。 与 DupLESS 相 比 ,该 方案 的 另 一 个 优点 是 它 是 分 布 
式 的 , 它 可 以 不 需要 可 信 第 三 方 ,而 将 服务 部 署 在 用 户 中 。 

Armknecht 等 人 5 中 提出 在 用 户 和 云 服务 器 之 间 设 置 一 个 网 关 , 巾 网 关 执 行 接 入 控制 ， 
从 而 实现 跨 用 户 的 文件 级 重复 数据 删除 。 在 用 户 端 采用 基于 Merkle Hash 树 的 包含 了 可 
接 人 当前 文件 的 用 户 信息 的 可 证 基数 累加 器 ,可 以 验证 文件 的 有 效 接 人 ,通过 上 传 相同 文件 
的 用 户 数 来 验证 其 存储 资费 的 合理 性 。 为 保护 文件 累加 器 的 信息 和 特定 文件 的 累加 结果 ， 
采用 可 验证 但 不 可 预测 的 时 间 相 关 随 机 数 产 生 器 选取 被 公开 文件 的 累加 器 信息 。 采 用 基于 
服务 器 协作 的 密 钥 产生 协议 及 报 文 加 锁 加 密 技 术 保护 用 户 文件 信息 ,从 而 防止 暴力 穷 举 攻 
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击 。 网 关 则 采用 文件 所 有 权证 明 机 制 来 防止 恶意 用 户 非法 接 入 文件 。 

如 前 所 述 , 郭 晓 勇 等 人 " 涩 提出 了 一 个 基于 收敛 加 密 技术 的 云 安全 去 重 与 完整 性 审计 系 
BE ,该 系统 采用 基于 讶 签名 的 收敛 密 钥 封装 与 解 封 算 法 ,在 安全 存储 收敛 密 钥 的 同时 可 以 实 
现 收敛 密 钥 去 重 。Stanek 等 人 "提出 了 将 数据 分 为 热度 数据 与 非 热 度数 据 。 非 热度 数据 
对 数据 隐私 性 要 求 较 高 ,采用 语义 安全 的 对 称 加 密 算法 进行 加 密 ; 对 于 热度 数据 , 则 使 用 收 
敛 加 密 算 法 进行 加 密 , 同 时 采用 执行 效率 较 高 的 客户 端 重复 数据 删除 技术 ,通过 比较 收敛 加 
密 密 文 的 哈 希 值 判断 数据 是 否 已 存储 在 云 服 务 器 ,如 果 已 经 存储 , 则 不 用 再 次 上 传 。 该 方案 
在 一 定 程度 上 提高 了 系统 的 执行 效率 。 

Puzio 等 人 m** 纪 等 设计 了 云 存储 系统 下 的 块 级 密 文 重复 数据 删除 方案 ,在 收 化 加密 的 
基础 上 引入 了 额外 的 加 密 操 作 和 访问 控制 机 制 以 抵御 离线 穷 举 攻击 。Cui 等 人 [提出 基于 
密 文 策略 属性 加 密 算法 和 混合 云 技术 的 云 中 加 密 数 据 重 复 删 除 方案 ,但 该 方案 的 安全 性 假 
设 较 强 且 执行 效率 较 低 。 

基于 可 信 第 三 方 的 方案 实现 较为 简单 ,但 是 会 降低 方案 的 安全 性 与 使 用 效率 。 对 此 ， 
Liu 等 人 5 提出 基于 口令 认证 的 密 钥 交换 (Password Authenticated Key Exchange,PAKE) 的 
服务 器 端 重复 数据 删除 方案 。 

由 于 用 户 习 惯 选择 低 炉 的 信息 作为 口令 ,因此 基于 口令 的 认证 协议 容易 唱 受 离线 穷 举 
攻击 。 针 对 这 个 问题 ,Bellovin 等 人 5 首次 提出 基于 PAKE 的 方案 。 在 该 方案 中 ,双方 只 
凭 低 业 口 令 即 可 在 安全 信道 中 协商 出 高 粹 密 钥 ,使 攻击 者 在 未 使 用 口令 进行 在 线 认 证 的 前 
提 下 无 法 对 密 钥 进行 猜测 。 

Liu 4$ AU? 的 方案 不 需要 可 信 第 三 方 就 可 以 实现 路 用户 的 重复 数据 删除 ,并 且 该 方案 
由 用 户 在 本 地 加 密 数 据 ,同时 可 防御 恶意 用 户 或 服务 器 发 起 的 暴力 攻击 。 用 户 上 传 文件 到 
云 服务 器 时 ,首先 对 文件 计算 Hash ff ,并 根据 预 设 的 短 Hash 函数 计算 文件 的 短 Hash 值 ， 
然后 将 该 短 Hash 值 发 送 给 服务 器 。 服 务 器 根据 该 短 Hash 值 找 出 具有 相同 短 Hash 值 的 
用 户 集合 ,通知 该 集合 中 用 户 分 别 通过 PAKE 算法 判断 他 们 的 文件 是 否 相 同 。 若 相同 , 则 
该 用 户 可 以 通过 PAKE 算法 得 到 集合 用 户 加 密 文件 的 密 钥 ,否则 表明 服务 器 上 没有 该 文 
件 , 用 户 将 使 用 随机 密 钥 加 密 文 件 , 并 上 传 到 云 服 务 器 。 云 服务 器 接收 到 该 密 文 后 检查 是 否 
已 经 存储 该 密 文 ,车 有 , 则 丢弃 该 密 文 ,同时 将 用 户 加 入 到 该 服务 器 上 此 密 文 的 允许 接 入 列 
表 中 ,否则 保存 该 密 文 。 为 了 防止 恶意 服务 器 发 起 的 在 线 暴力 攻击 ,比如 恶意 服务 器 向 用 户 
发 送 伪造 的 PAKE 请 求 或 应 答 来 猜测 文件 内 容 , 该 方案 对 单个 文件 的 访问 次 数 做 了 限制 ， 
如 果 一 个 用 户 对 某 个 文件 的 PAKE 请 求 次 数 超过 该 限制 值 ,系统 将 忽略 其 请 求 。 

针对 公共 云 环境 下 用 户 密 钥 多 样 性 造成 的 重复 数据 删除 困难 , 且 依 赖 于 可 信 第 三 方 容 
易 造 成 安全 性 与 执行 效率 低下 ,张曙光 等 人 5 提出 一 种 无 可 信 第 三 方 的 加 密 重 复数 据 安全 
删除 方案 。 该 方案 结合 PAKE 协议 与 双 线 性 映射 构建 加 密 数 据 元 余 性 识别 算法 ,构造 数据 
流行 度 查询 标签 (Popularity Check Tag. PCT), {EJH PCT 识别 数据 的 热度 ,其 查询 过 程 不 
会 泄露 数据 的 任何 明文 信息 。 采 用 同 态 加 密 算 法 设计 加 密 密 钥 传递 算法 ,初始 上 传 者 能 够 
通过 云 服务 器 将 加 密 密 钥 安全 传递 至 后 继 上 传 者 。 初 始 上 传 者 通过 PCT 判断 后 继 上 传 者 
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的 合法 性 ,并 使 用 同 态 加密 算 法 将 非 热 度数 据 的 加 密 密 钥 安全 传递 至 合法 后 继 上 传 者 。 持 
有 相同 数据 的 用 户 能 够 获取 相同 加 密 密 钥 ,使 云 服务 器 能 够 实现 加 密 数据 重复 删除 。 对 于 
隐私 度 较 低 的 热度 数据 ,可 以 安全 执行 客户 端 重复 数据 删除 。 

同时 ,他 们 又 提出 一 种 无 需 可 信 第 三 方 的 基于 离线 密 钥 分 发 的 加 密 数 据 重复 删除 方 
案 " 。 该 方案 通过 构造 双 线性 映射 来 验证 加 密 数据 是 否 源 自 同 一 明文 ,并 利用 广播 加 密 技 
术 实 现 加 密 密 钥 的 安全 存储 与 传递 。 任 意 数 据 的 初始 上 传 者 能 够 借助 去 服务 器 ,以 离线 方 
式 验 证 后 继 上 传 者 的 合法 性 并 传递 数据 加 密 密 钥 。 

Harnik 等 人 "中 针对 DropBox 和 MozyHome 等 流行 云 存储 服务 ,分 析 并 揭示 了 基于 客 
户 端的 重复 数据 删除 系统 可 能 遭受 文件 识别 攻击 和 文件 内 容 识别 攻击 等 安全 威胁 。 文 献 
[80-83] 也 对 密 文 重复 数据 删除 进行 了 研究 。 


5.5 加 密云 数据 库 


云 存储 环境 下 的 数据 库 系统 与 传统 数据 库 有 很 大 区 别 , 它 运行 在 数据 库 服 务 器 上 。 因 
为 云 环境 的 不 可 信 性 ,要 保证 数据 库 系统 的 机 密 性 ,需要 对 数据 库 系 统 的 数据 进行 加 密 存 
储 。 但 是 数据 加 密 后 怎样 进行 数据 查询 以 及 处 理 是 亚 待 解决 的 问题 。 

2006 年 ,Agrawal 等 人 5 提出 基于 安全 协 处 理 器 的 加 密 数据 库 查 询 系统 。 为 了 避免 可 
信和 硬件 成 为 性 能 瓶颈 ,并 提高 主机 利用 效率 ,该 系统 把 大 部 分 工作 交 给 主机 执行 ,只 将 少量 
与 安全 相关 的 工作 交 给 安全 协 处 理 器 执行 。 

2011 年 ,Bajaj 等 人 "中 提出 基于 可 信和 硬件 的 加 密 数据 库 系统 TrustedDB, 实 现 不 可 信 云 
环境 下 保护 用 户 隐私 的 数据 查询 。 其 核心 思想 也 是 将 一 些 需 要 保护 隐私 的 数据 操作 任务 交 
给 可 信 硬 件 执 行 。 该 系统 可 以 实现 明文 数据 库 支持 的 各 类 数据 查询 操作 。 

2011 年 ,Popa 等 人 中 提出 加 密 数据 库 查询 系统 CryptDB, 能 够 实现 用 户 对 存储 在 SQL 
数据 库 中 的 数据 进行 多 种 查询 操作 : order comparison、equality checks、join、aggregate。 该 
系统 引入 一 个 可 信 代 理 MySQL-Proxy, 对 用 户 的 SQL 查询 关键 字段 进行 加 密 ,并 且 依 然 保 
证 SQL 语句 的 语法 要 求 , 然 后 发 送 给 MySQL-Server。MySQL-Server 处 理 完 成 后 返回 加 
密 的 数据 给 MySQL-Proxy tH MySQL-Proxy 将 数据 解密 后 返回 给 用 户 。 

CryptDB 利用 同 态 加 密 技术 实现 密 文 数据 的 计算 。 作 者 提出 一 种 结合 概率 加 密 、 确 定 
性 加 密 、 同 态 加 密 以 及 保 序 加 密 等 多 种 加 密 算 法 的 洋葱 加 密 技 术 (Onion Encryption) ,使 得 
查询 过 程 只 需要 少量 的 同 态 加 密 运 算 。 洋 葱 加 密 技 术 的 思想 是 将 安全 性 最 强 的 加 密 算法 放 
在 最 外 层 加 密 或 解密 ,在 中 间 层 次 使 用 安全 性 稍 弱 的 加 密 算 法 ,在 需要 支持 某 类 操作 的 时 
候 , 才 对 最 强 的 加 密 算法 进行 部 分 解密 以 实现 特定 操作 。 虽 然 全 同 态 加 密 技 术 开 销 很 大 ,但 
是 对 于 数据 库 系 统 来 说 ,查询 过 程 只 需要 少量 的 同 态 加 密 运 算 , 并 且 该 系统 结合 了 洋葱 加 密 
技术 ,使 数据 库 可 以 根据 查询 负载 调整 加 密 方 法 ,实现 安全 性 与 可 用 性 的 平衡 。 

与 CryptDB 一 样 ,由 麻 省 理工 学 院 人 工 智 能 实验 室 Tu 等 人 中 开发 的 加 密 数 据 库 系 统 
Monomi, 使 服务 器 可 以 根据 负载 选择 适当 的 物理 设计 ,并 且 可 以 实现 敏感 数据 在 硬盘 和 内 
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存 中 都 保持 加 密 状态 。 

Tetali 4 AS” fI Stephen 等 人 "9 在 CryptDB 的 基础 上 提出 MrCrypt 和 Crypsis, MrCrypt 
是 一 个 应 用 于 Hadoop 中 的 并 行 计算 模型 MapReduce 的 密 文 查询 系统 ,Crypsis 是 一 个 用 
于 支持 如 Pig Latin 高 级 数据 流 语言 的 系统 ,两 者 都 使 用 Paillier 和 EGM 方案 分 别 实现 密 
文 数据 的 加 法 和 乘法 同 态 运算 。 

2013 年 ,Arasu 等 人 四 提出 加 密 数 据 库 系统 Cipherbase, 该 系统 结合 定制 的 可 信 硬 件 
扩展 微软 的 SQL Server 以 有 效 地 执行 各 类 数据 库 查询 功能 。 他 们 详细 介绍 了 基于 FPGA 
的 可 信和 硬件 实现 安全 相关 操作 的 设计 与 实现 ,可 以 保证 敏感 数据 无 论 在 硬盘 还 是 在 内 存 中 
都 保持 加 密 状态 ,也 可 以 保证 可 信和 硬件 中 的 程序 状态 的 安全 性 。 

此 外 ,一 些 云 服 务 提供 商 的 云 数 据 库 系 统 也 实现 了 机 密 性 保护 。Google 的 Google 
Cloud SQL 数据 库 服务 中 ,数据 将 自动 加 密 , 保 证 数据 符合 SSAE 16 ISO 27001, PCI DSS 
v3.0 和 HIPAA 的 合 规 性 要 求 。Google 的 基础 架构 提供 各 种 存储 服务 以 及 中 央 密 钥 管 理 
服务 ,Google 的 大 多 数 应 用 均 通过 这 些 存储 服务 间接 访问 物理 存储 。 通 常 可 以 将 存储 服务 
配置 为 使 用 中 央 密 钥 管 理 服务 中 的 密 钥 对 数据 进行 加 密 , 然 后 再 将 数据 写 和 人 物理 存储 。 可 
以 将 密 钥 与 用 户 关 联 , 中 央 密 钥 管 理 服务 支 持 自 动 密 钥 更 替 。 

其 他 云 数据 库 系统 ,如 阿里 云 的 云 数 据 库 RDS(Relational Database Service) , f 4X fff 
SQL Azure 以 及 亚马逊 的 Relational Database Service 都 支持 透明 数据 加 密 。 

关于 云 环 境 下 数据 库 机 密 性 保护 技术 的 研究 工作 可 以 参考 文献 [90]。 


5.6 存在 的 问题 与 未 来 发 展 方向 


自从 有 了 存储 安全 需求 以 来 ,就 有 了 加 密 存储 系统 。 因 此 ,对 于 加 密 存储 系统 的 研究 已 
经 非常 成 熟 。 现 有 的 加 密云 存储 系统 也 是 借鉴 以 前 的 研究 工作 ,进行 一 定 的 改进 或 引入 最 
新 的 信息 安全 与 密码 学 技术 ,用 于 满足 用 户 不 断 增长 的 安全 性 与 性 能 要 求 。 综 合 已 有 的 研 
究 工 作 , 加 密云 存储 系统 仍然 存在 以 下 问题 。 

(1) 系统 规模 与 可 扩展 性 问题 ,因为 加 密云 存储 系统 中 加 解密 操作 开销 较 大 , 且 随 着 用 
户 数量 的 增长 ,其 开销 呈 线 性 增长 。 怎 样 平衡 系统 的 可 扩展 性 与 可 用 性 需求 ,使 系统 规模 增 
长 时 ,仍然 提供 较 好 的 数据 可 用 性 是 需要 解决 的 问题 。 

(2) 密 文 重复 数据 删除 问题 ,虽然 已 经 取得 了 丰硕 的 研究 成 果 , 但 仍然 需要 在 安全 性 、 
可 用 性 以 及 是 否 存在 可 信 第 三 方 等 方面 进行 权衡 。 

C3) 加 密 数 据 共 享 时 的 密 钥 分 发 与 撤销 问题 ,基于 公 钥 密码 技术 的 密 钥 分 发 技术 开销 
较 大 ,特别 当 用 户 数据 量 大 时 ,而 基于 对 称 密码 技术 的 方案 的 管理 非常 复杂 。 当 要 撤销 用 户 
时 ,需要 更 新 密 钥 并 重新 加 密 数 据 , 也 会 带 来 很 大 的 性 能 开销 。 

(4) 可 信 硬 件 和 安全 协 处 理 器 的 实施 问题 ,因为 密码 操作 开销 较 大 ,引入 可 信 硬 件 和 安 
全 协 处 理 器 有 利于 提高 系统 效率 ,改进 用 户 使 用 体验 ,但 是 基于 可 信 硬 件 的 方案 通常 与 具体 
的 系统 密切 相关 ,还 没有 一 个 通用 的 基于 可 信 硬 件 的 框架 可 以 适用 于 所 有 系统 。 
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O 有 较 多 基于 同 态 加 密 技术 的 密 文 数据 处 理 方案 ,但 是 因为 同 态 加 密 技 术 是 一 种 公 
钥 密码 ,当前 还 没有 较 高 效 的 同 态 密码 算法 ,所 以 有 些 基于 同 态 加 密 技术 的 方案 对 于 目前 的 
处 理 效 率 来 说 并 不 可 用 。 

(6) 基于 虚拟 机 监控 器 的 数据 加 密 方案 可 以 防止 用 户 数据 泄露 给 其 他 用 户 , 但 是 却 不 
能 防止 管理 虚拟 机 的 云 存储 服务 提供 商 获 取 数 据 。 

以 上 存在 的 问题 也 为 未 来 的 研究 指明 了 方向 ,即使 加 密 存 储 系统 已 经 发 展 了 几 十 年 , 提 
出 了 很 多 解决 方案 ,但 面 对 新 的 环境 仍然 面临 新 的 挑战 ,仍然 有 很 多 问题 需要 解决 。 


5.7 本 章 小 结 


本 章 首先 分 析 了 云 存 储 环境 下 加 密 存 储 系 统 面临 的 新 的 挑战 ,指明 研究 中 要 解决 的 问 
题 ; 然后 介绍 了 加 密云 存储 系统 的 发 展 , 从 网 络 存储 系统 开始 ,介绍 非 共享 的 加 密 文 件 系统 
如 何 发 展 到 共享 的 加 密 文 件 系 统 , 并 介绍 了 云 环境 下 几 个 知名 云 服务 提供 商 的 加 密 存 储 系 
统 ; 接着 介绍 了 加 密云 存储 系统 中 的 密 钥 管理 ,包括 密 钥 生 成 与 发 布 以 及 密 钥 撤销 ; 然后 
介绍 了 密 文 重复 数据 删除 和 加 密云 数据 库 方面 的 研究 工作 以 及 产业 界 的 实践 ; 最 后 总 结 了 
仍然 存在 的 问题 和 未 来 发 展 方向 。 
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密 文 云 存储 信息 检索 


信息 检索 是 我 们 访问 数据 的 重要 方式 。2009 年 ,精神 病 学 教授 盖 里 。 斯 莫 尔 (Gary W 
Small) 等 人 发 表 了 研究 论文 (谷歌 上 的 大 脑 : 互联 网 搜索 中 的 大 脑 激活 模式 》(Your 
Brain on Google: Patterns of Cerebral Activation during Internet Searching )。 他 们 找 了 
24 名 研究 对 象 , 其 中 12 人 经 常 使 用 搜索 引擎 ,另外 12 人 很 少 使 用 。 在 每 个 人 上 网 时 ,给 他 
们 脑 部 做 核磁 共振 。 研 究 发 现 , 使 用 搜索 引擎 的 时 候 , 人 们 大 脑 中 处 理 问题 决策 的 区 域 活跃 
度 会 提升 ,经 常 使 用 搜索 引擎 的 12 人 在 实验 中 的 脑 部 活动 是 很 少 使 用 搜索 引擎 的 人 的 2 
倍 。 搜 索引 擎 不 仅 可 以 帮助 人 们 找到 需要 的 信息 ,还 可 以 让 人 们 的 大 脑 保持 年 轻 。 

在 当今 的 “互联 网 十 ”环境 中 ,加 密 是 一 种 常用 的 保护 用 户 数 据 私密 性 的 方法 ,然而 数据 
加 密使 得 数据 失去 了 原 有 的 结构 特性 ,导致 在 海量 的 密 文 文件 中 搜索 特定 的 文件 变 得 极为 
困难 。 因 此 ,对 密 文 数据 的 高 效 搜索 成 为 一 个 迫切 需要 解决 的 问题 。 

本 章 将 首先 对 密 文 搜索 技术 进行 概述 ,然后 介绍 其 发 展现 状 , 并 详细 介绍 云 存储 环境 下 
的 密 文 搜索 和 关于 该 领域 的 最 新 研究 成 果 , 最 后 提出 未 来 的 发 展 方向 和 面临 的 挑战 。 


6.1 密 文 搜索 技术 概述 


本 节 首 先 介绍 密 文 搜索 技术 分 类 ,然后 介绍 其 应 用 模型 。 


6.1.1. 密 文 搜索 技术 分 类 


根据 搜索 词 与 加 密 数 据 的 耦合 方式 , 密 文 搜索 (Searchable Encryption,SE) 分 为 可 搜索 
加 密 算法 与 可 搜索 加 密 方案 。 可 搜索 加 密 算法 是 指 设计 的 密码 算法 本 身 支持 搜索 ; 可 搜索 
加 密 方 案 是 指 设计 一 种 方案 ,比如 使 用 倒 排 索 引 , 然 后 使 用 已 有 的 密码 算法 ( 公 钥 密码 或 对 
称 密码 算法 ) 对 数据 进行 加 密 ,利用 索引 实现 加 密 数 据 的 搜索 ,关键 词 索 引 技术 和 数据 加 密 
在 实现 上 具有 独立 性 。 

目前 主要 有 两 种 典型 的 可 搜索 加 密 方案 : 一 种 是 直接 对 密 文 进行 线性 搜索 , 即 对 密 文 
中 单词 逐个 进行 比 对 ,确认 关键 词 是 否 存 在 以 及 出 现 的 次 数 ; 另 一 种 是 基于 安全 索引 , 即 先 
对 文档 建立 关键 词 索 引 ,然后 将 文档 和 索引 加 密 后 上 传 至 云端 ,搜索 时 从 索引 中 查询 关键 词 
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是 否 存 在 于 某 个 文档 中 。 直 接 对 密 文 进行 线性 搜索 的 方案 缺点 在 于 搜索 效率 不 高 , 且 无 法 
应 对 海量 数据 的 搜索 场景 。 基 于 索引 的 密 文 搜索 方案 是 目前 的 研究 主流 ,原因 是 其 查询 效 
率 更 高 ,安全 性 能 更 好 ,适用 于 大 规模 的 云 存储 密 文 搜索 系统 。 基 于 索引 的 密 文 搜索 可 进 一 
步 分 为 两 类 : 第 一 类 是 针对 结构 化 的 数据 ,以 数据 库 为 代表 ; 第 二 类 是 针对 非 结 构 化 的 数 
据 , 以 文件 系统 和 Web 网 页 内 容 为 代表 。 

基于 索引 的 密 文 搜索 方案 根据 基于 的 密码 技术 可 以 分 为 基于 对 称 密码 (Symmetric 
Cryptography based) 的 可 搜索 加 密 方 案 , 通 常 称 为 可 搜索 对 称 加 密 方案 (Searchable 
Symmetric Encryption ,SSE) 和 基于 公 钥 密码 (Public Key Cryptography based) 的 可 搜索 加 
密 方案 。 用 户 的 主要 数据 存放 在 家 用 或 办 公 台 式 机 上 ,而 平时 主要 使 用 手机 等 手持 设备 访 
问 网 络 , 这 是 目前 很 多 用 户 的 实际 场景 。 用 户 的 数据 很 丰富 ,包括 文档 .照片 .视频 等 各 种 数 
据 。 有 些 文件 如 用 户 的 一 些 私 人 照片 并 不 希望 被 别人 看 见 ,因此 存放 到 云端 前 ,需要 对 数据 
进行 加 密 处 理 。 显 然 , 大 量 的 用 户 数据 如 果 使 用 公 钥 密码 算法 加 密 其 开销 太 大 ,因此 只 适合 
使 用 对 称 密码 算法 加 密 。 

关于 密 文 搜索 技术 的 分 类 中 如 图 6-1 所 示 ,将 密 文 搜索 的 研究 内 容 分 为 可 搜索 加 密 方 
案 和 可 搜索 加 密 模 型 。 在 可 搜索 加 密 方案 中 ,根据 加 密 算法 可 分 为 基于 公 钥 加 密 算法 和 基 
于 对 称 加 密 算法 ; 将 基于 关键 词 的 密 文 搜索 分 为 单 关键 词 (进一步 可 分 为 模糊 查询 、 排 序 查 
询 ) .多 关键 词 .连接 关键 词 和 灵活 查询 (进一步 可 分 为 范围 查询 和 子 集 查询 )。 在 可 搜索 加 
密 模 型 中 ,根据 数据 拥有 者 和 用 户 的 数量 ,分 为 单数 据 拥有 者 单 用 户 、 多 数据 拥有 者 单 用 户 、 
单数 据 拥 有 者 多 用 户 和 多 数据 拥有 者 多 用 户 ,也 是 下 一 节 将 介绍 的 应 用 模型 。 


一 模糊 查询 
一 单 关键 词 一 
nee 
rob Rai _ 十 “多 关键 词 排序 查询 
的 密 文 搜索 
|I— 连接 关键 词 
三 范 围 查询 
一 灵活 查询 一 
mo? 一 子 集 查 询 
密 方案 
一 双 线性 
_ 公 钥 加 密 _| ”映射 
加 密 算 法 算法 
密 文 搜索 _ | ETT 
Di Di 1 
didi made 算法 
者 单 用 户 
多 数据 拥有 
TREN 者 单 用 户 ” 数据 拥有 者 
密 模型 单数 据 拥有 | Token 
者 多 用 户 “| unu 
多 数据 拥有 Token 
者 多 用 户 | 权威 中 心 发 


布 Token 
图 6-1 密 文 搜索 技术 的 分 类 
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基于 对 称 密码 的 密 文 搜索 方案 一 般 使 用 哈 希 (Hash) 函数 、 伪 随机 函数 (Pseudo-Random 
Function. PRF) 、 伪 随机 转换 (Pseudo-Random Permutation,PRP) 和 对 称 密码 算法 等 构造 ; 
基于 非 对 称 密码 的 密 文 搜索 方案 一 般 使 用 双 线 性 映射 (Bilinear Mapping)、 双 线性 对 
(Bilinear Pairing) 指数 运算 (Exponent Operation) 以 及 同 态 密码 算法 等 ,并 将 安全 性 建立 
在 困难 问题 的 难 解 性 之 上 ,其 计算 开销 远大 于 SSE™ 。 

因为 加 密云 存储 系统 中 数据 量 很 大 ,一 般 使 用 对 称 密码 算法 加 密 数 据 , 所 以 云 存储 环境 
下 一 般 是 采用 基于 对 称 密码 的 密 文 搜索 方案 。 


6.1.2 密 文 搜索 应 用 模型 


无 论 是 基于 对 称 密码 的 可 搜索 对 称 加 密 (Searchable Symmetric Encryption,SSE), 还 
是 基于 公 钥 密码 (Public Key Cryptography based) 的 可 搜索 加 密 , 通 常 都 包括 3 个 角色 : z 
存储 服务 器 (Cloud Storage Server) ,数据 拥有 者 (Data Owner) 和 数据 用 户 (Data User) 。 数 
据 拥 有 者 希望 将 自己 的 数据 安全 存放 在 云 存储 服务 器 上 ,方便 数据 管理 与 访问 。 

密 文 搜索 应 用 模型 中 根据 数据 拥有 者 是 否 共享 其 存储 在 云 服 务 器 上 的 数据 ,分 为 非 共 
享 型 和 共享 型 两 种 密 文 搜索 应 用 模型 。 在 非 共享 模型 中 ,数据 用 户 就 是 数据 拥有 者 ,也 就 是 
单数 据 拥有 者 单 用 户 ; 而 在 共享 模型 中 ,数据 用 户 是 指 可 以 通过 网 络 访问 数据 拥有 者 数据 
的 其 他 用 户 。 共 享 模型 又 进一步 分 为 单数 据 拥 有 者 多 用 户 、 多 数据 拥有 者 单 用 户 和 多 数据 
拥有 者 多 用 户 。 

非 共享 模型 如 图 6-2 所 示 ,数据 拥有 者 同时 也 是 数据 用 户 , 他 会 为 自己 生成 搜索 令 牌 ， 
从 而 在 云 存储 服务 器 上 搜索 自己 的 文件 。 早 期 的 密 文 搜索 方案 基本 都 是 这 种 类 型 的 。 非 共 
享 模型 的 密 文 搜索 方案 包括 文献 [4-15]。 


SS 
加 密 数 据 


数据 拥有 者 一 一 一 搜索 结果 
图 6-2 非 共 享 模型 


共享 模型 的 系统 结构 如 图 6-3 Bron ,数据 用 户 是 指 通过 数据 拥有 者 授权 ,可 以 通过 网 络 
访问 数据 拥有 者 数据 的 其 他 用 户 。 根 据 共享 时 数据 拥有 者 与 用 户 的 数量 ,可 以 分 为 一 对 多 
模式 、 多 对 一 模式 和 多 对 多 模式 。 此 处 的 云 存 储 服务 器 考虑 的 是 单 服务 器 ,未 考虑 多 云 存储 
服务 器 的 情形 。 

多 对 一 应 用 模型 如 图 6-4 所 示 。 基 于 公 钥 密码 的 可 搜索 加 密 方案 能 有 效 地 支持 这 种 类 
型 的 共享 , 公 钥 用 于 明文 信息 的 加 密 和 目标 密 文 的 检索 , 私 钥 用 于 解密 密 文 信息 和 生成 关键 
词 陷 门 。 虽 然 基 于 公 钥 密码 的 可 搜索 加 密 方案 通常 较为 复杂 ,加 解密 速度 较 慢 ,但 是 其 公私 
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M 
加 密 数 据 “党 T 
查询 控制 (trapdoon) 一 一 一 一 一 

数据 拥有 者 ds 数据 用 户 


图 6-3 共享 模型 


钥 相 互 分 离 的 特点 非常 适用 于 多 用 户 体制 下 可 搜索 加 密 问题 。 比 如 ,数据 拥有 者 利用 授权 
用 户 的 公 钥 来 加 密 文件 和 相关 关键 词 ,检索 时 授权 用 户 使 用 私 钥 生 成 待 检索 关键 词 陷 门 , 云 
服务 器 根据 搜索 陷 门 执行 搜索 算法 后 返回 目标 密 文 。 该 方法 避免 了 在 数据 拥有 者 与 授权 用 
户 之 间 建 立 安全 通道 。 


ings | 密 文 
数据 拥有 者 文件 
SS 云 存储 查询 RS 
数据 拥有 者 3E 服务 器 CTS 数据 用 / 
Unt 密 文 
数据 拥有 者 文件 


图 6-4 多 对 一 应 用 模型 


第 一 个 实用 的 多 对 一 可 搜索 加 密 方案 是 Boneh 等 人 在 2004 年 提出 的 PEKSCPublic- 
key Encryption with Keyword Search) "9 。 在 该 方案 中 ,多 个 数据 拥有 者 利用 授权 用 户 的 
公 钥 来 加 密 数 据 和 用 于 查询 的 关键 词 , 然 后 上 传 ,授权 用 户 可 以 利用 自己 的 私 钥 生成 关键 词 
的 搜索 陷 门 并 查询 出 相关 数据 。 

Abdalla 等 人 "在 2005 年 描述 了 从 基于 身份 的 加 密 (Identity Based Encryption. IBE) 
到 PEKS 的 一 般 变 换算 法 ,能 够 将 某 种 安全 性 的 IBE 方案 直接 变换 成 与 其 安全 性 相当 的 
PEKS 方案 。 

多 对 一 应 用 模型 的 应 用 场景 相对 较 少 ,因为 公 钥 密码 的 计算 开销 太 大 。 这 类 方案 一 般 
适用 于 较 少 数据 量 的 情形 ,比如 用 于 电子 邮件 过 滤 应 用 中 。 

一 对 多 与 多 对 多 应 用 模型 如 图 6-5 所 示 。 通 常 ,基于 公 钥 密码 的 方案 能 有 效 地 支持 这 
种 类 型 的 共享 。 在 使 用 基于 对 称 密码 的 可 搜索 加 密 方 案 中 ,可 通过 结合 基于 属性 的 加 密 
(Attribute Based Encryption, ABE) .广播 加 密 (Broadcast Encryption,BE) 或 代理 重 加 密 


114 4| 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


(Proxy Re-encryption) 等 公 钥 密码 算法 来 实现 共享 。 作 者 认为 ,一 对 多 应 用 模型 与 多 对 多 
应 用 模型 可 以 不 加 区 分 ,一 对 多 应 用 模型 可 以 视 为 多 对 多 应 用 模型 的 一 种 特例 一 一 在 一 对 
多 应 用 模型 中 , 当 数据 拥有 者 同时 也 是 数据 用 户 时 , 它 也 就 是 一 个 多 对 多 应 用 模型 。 


查询 


| suem 
— # ate | 查询 
semna Hie aum | 数据 用 户 
查询 。| 数据 用 户 


响应 


(a) 一 对 多 应 用 模型 


密 文 查询 ; 
SUF "yit 数据 有 


数据 拥有 者 


| 密 文 | 云 存储 |o 
数据 拥有 者 Sem) maa [teur] 数据 用 户 


-| EX 查询 = 
数据 拥有 者 | Soe sa | 数据 用 


(b) 多 对 多 应 用 模型 
图 6-5 一 对 多 与 多 对 多 应 用 模型 


在 一 对 多 与 多 对 多 应 用 模型 中 ,有 两 个 问题 需要 考虑 。 

(1) 向 授权 用 户 分 发 共享 密 钥 。 

(2) 用 户 撤销 。 

Curtmola 等 人 器 第 一 次 提出 了 多 用 户 可 搜索 对 称 加 密 的 概念 ,并 基于 广播 加 密 59 实 
现 了 一 个 高 效 的 一 对 多 或 多 对 多 可 搜索 加 密 方案 。 该 方案 通过 向 授权 用 户 共 享 文件 密 钥 来 
实现 , 当 要 撤销 用 户 时 ,需要 重新 生成 新 的 共享 文件 密 钥 。 

根据 是 否 有 可 信 第 三 方 来 协助 数据 共享 ,又 可 以 将 该 应 用 模型 分 为 依赖 可 信 第 三 方 
(Trusted Third Party. T TP) HP 30 8 ficii n] fei 8 — 77 8079 Ax ev RUBUS , 

Sun 4; AU JE F ae XC TE i JR HE ETM SK CCiphertext Policy Attribute Based Encryption. 
CP-ABE) 实 现 了 一 个 可 以 让 数据 拥有 者 进行 细 粒 度 授 权 的 多 用 户 可 搜索 加 密 方案 。 该 方 
案 利 用 代理 重 加 密 和 懒惰 重 加 密 技术 把 用 户 的 授权 工作 外 包 给 云 服 务 器 ,可 信 第 三 方 只 负 
责 密 钥 (包括 公 钥 、 系 统 主 密 钥 和 重 加 密 密 钥 ) 的 生成 和 分 发 。 文 献 [23] 和 [25] 也 是 采用 属 
性 基 加 密实 现 多 用 户 可 搜索 加 密 方案 。 

目前 大 部 分 多 对 多 应 用 模型 的 可 搜索 加 密 方案 依赖 可 信 第 三 方 ,可 信 第 三 方 可 以 实现 
高 效 的 密 钥 分 发 和 权限 的 撤销 ,但 在 云 存 储 环境 下 ,可 信 第 三 方 是 很 难 实现 的 。 目 前 也 有 一 
些 不 依赖 可 信 第 三 方 的 可 搜索 加 密 方 案 , 如 文献 [26] 和 [27] 的 方案 将 数据 拥有 者 授权 信息 
附加 在 文件 后 面 ,而 文献 [28j 改 进 了 文献 [27] 的 方案 ,提出 一 种 基于 关键 词 授权 二 又 树 
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(Keyword Authorization Binary Tree,KABtree) 的 方案 ,使 得 数据 拥有 者 可 以 指定 授权 用 
户 在 关键 词 的 子 集中 进行 搜索 ,从 而 实现 细 粒 度 的 访问 控制 。 

在 多 对 多 应 用 模型 中 ,任何 用 户 都 可 以 上 传 数据 ,并 与 其 他 用 户 共 享 数 据 。 这 是 密 文 搜 
索 中 最 复杂 的 应 用 模型 ,也 是 云 存 储 环 境 下 的 实际 应 用 场景 ,也 将 是 今后 的 主要 研究 方向 。 

以 上 还 只 是 讨论 了 单 服务 器 模型 ,而 没有 考虑 多 服务 器 模型 ,比如 跨 服务 提供 商 的 云 存 
储 模 型 ,或 者 是 混合 云 模型 的 情况 。 当 然 , 也 有 这 方面 的 研究 工作 。 

Xhafa A") fe 2014 年 提出 一 种 混合 云 环境 下 的 基于 匿名 ABE 的 支持 模糊 关键 词 的 
可 搜索 加 密 方 案 , 用 户 利 用 私有 云 作 为 一 个 可 信 代 理 来 部 署 个 人 健康 档案 (Personal Health 
Record,PHR) 数 据 到 公有 云 上 。 其 中 基于 匿名 ABE 技术 实现 细 粒 度 的 访问 控制 ,使 用 基 
于 通配符 的 方法 进行 模糊 关键 词 检 索 , 并 使 用 基于 符号 的 遍历 搜索 (Symbol-Based Trie- 
Traverse Search) 技 术 提高 搜索 效率 。 


6.2 密 文 搜索 发 展现 状 


上 一 节 介 绍 了 密 文 搜索 技术 的 分 类 和 应 用 模型 ,本 节 将 以 密 文 搜索 技术 的 功能 属性 和 
安全 属性 为 线索 ,介绍 密 文 搜索 技术 的 发 展现 状 。 


6.2.1 密 文 搜 索 功能 属性 与 安全 属性 


密 文 搜索 技术 从 最 早 的 仅 支持 单 关键 词 搜索 发 展 到 支持 多 关键 词 搜索 ,然后 到 支持 多 
用 户 ,支持 动态 更 新 ,支持 相似 搜索 、 模 糊 搜索 ,再 到 对 搜索 结果 进行 排序 等 ,功能 日 益 丰富 。 
而 从 安全 性 角度 来 看 , 密 文 搜索 技术 还 可 以 实现 公开 验证 搜索 结果 或 数据 的 完整 性 ,实现 用 
户 与 服务 器 之 间 的 公平 性 ,保护 搜索 过 程 中 的 数据 隐私 ,以 及 保护 搜索 的 访问 模式 和 搜索 模 
式 等 。 总 结 密 文 搜索 技术 的 属性 ,可 分 为 功能 属性 和 安全 属性 ,如 图 6-6 所 示 。 
[一 单 /多 关键 词 
[一 多 用 户 授权 
功能 属性 一 -一 支持 动态 更 新 
一 模糊 /相似 查询 
[一 相关 度 排序 查询 
范围 / 子 集 查 询 


密 文 搜索 
属性 [— 可 公开 验证 
安全 属性 一 | 一 保护 数据 隐私 
一 保护 访问 模式 
L— 保护 搜索 模式 

图 6-6 密 文 搜索 属性 
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通常 ,在 可 搜索 加 密 方案 中 会 泄露 以 下 信息 。 

(1) 索引 信息 (Index Information) ; 索引 是 对 文件 提取 关键 词 后 建立 的 。 目 前 通常 基 
于 倒 排 索引 ,包含 了 关键 词 与 文件 的 对 应 关系 。 一 旦 索引 上 传 到 云 服务 器 , 便 会 泄露 每 篇 文 
档 中 关键 词 的 个 数 、 文 档 数 量 文档 密 文 长 度 、 文 档 名 以 及 文档 之 间 的 相似 性 。 

(2) 搜索 模式 (Search pattem); 指 的 是 可 以 判断 两 次 搜索 是 否 是 对 相同 关键 词 的 搜 
索 。 对 于 基于 确定 性 加 密 的 方案 ,针对 相同 关键 词 的 搜索 陷 门 是 相同 的 ,因此 就 泄露 了 搜索 
模式 。 

(D 访问 模式 (Access pattem): 用 户 每 次 搜索 , 云 服务 器 都 会 知道 每 个 查询 对 应 的 查 
询 结果 。 云 服务 器 可 以 从 这 些 数据 中 推测 出 一 些 信息 。 比 如 , 某 次 搜索 返回 了 文件 A, 而 另 
一 次 搜索 返回 了 文档 A 和 B, 可 以 推测 出 第 一 次 搜索 的 条 件 更 加 严格 。 

通常 ,在 设计 可 搜索 加 密 方案 时 ,除了 以 上 3 类 信息 的 泄露 ,不 允许 泄露 其 他 任何 信息 。 
当然 ,一 个 好 的 可 搜索 加 密 方案 ,其 泄露 的 信息 越 少 , 则 安全 性 越 强 。 

Goldreich 和 Ostrovsky” 提出 的 不 经 意 的 RAM COblivious RAM,ORAM) 通 过 访问 
多 份 数据 ,来 隐藏 真实 的 访问 目标 。 目 前 大 家 认为 ORAM 是 保护 云 存 储 访问 隐私 性 的 最 
有 潜力 的 方法 ,将 ORAM 技术 应 用 于 可 搜索 加 密 方案 中 ,可 以 隐藏 搜索 模式 和 访问 模式 ， 
但 是 ORAM 往往 需要 对 数 多 项 式 的 计算 和 通信 开销 ,以 及 对 数 级 多 轮 交 互 ,通常 所 用 访问 
时 间 比 直接 访问 时 间 多 出 几 十 甚至 上 百倍 。 

全 同 态 加 密 5 为 直接 对 云 存 储 服务 器 中 的 加 密 数据 进行 运算 和 操作 提供 了 理论 保障 。 
但 目前 全 同 态 加 密 方案 的 计算 开销 非常 大 ,难以 在 现 有 计算 技术 条 件 下 有 效 实现 ,因此 尚未 
进入 实用 化 阶段 。 此 外 ,在 数据 库 应 用 下 的 保密 信息 检索 (Private Information Retrieval， 
PIR) 与 可 搜索 加 密 的 研究 内 容 也 有 一 定 关系 ,但 PIR 关注 的 是 信息 查询 过 程 中 的 数据 
隐私 性 ,而 并 不 关注 数据 本 身 是 否 加 密 。 

除了 以 上 丰富 的 功能 属性 与 安全 属性 , 密 文 搜索 方案 的 正确 性 .灵活 性 .丰富 的 表达 式 
以 及 算法 的 效率 等 都 是 密 文 搜索 技术 的 研究 重点 。 


6.2.2 密 文 搜索 现状 与 发 展 趋势 


因为 云 存 储 环境 下 ,通常 采用 基于 对 称 密码 算法 的 可 搜索 加 密 方案 ,所 以 本 书 也 主要 介 
绍 可 搜索 对 称 加 密 方案 (Searchable Symmetric Encryption ,SSE) 。 

2000 年 ,Song 等 中 首次 提出 一 个 非 交互 式 的 基于 单 关键 词 的 SSE 方案 。 该 方案 通过 
对 密 文 文件 进行 扫描 并 与 密 文 单词 进行 比较 ,来 确定 关键 词 是 否 存在 。 在 海量 数据 环境 下 ， 
其 效率 不 佳 。 为 了 改进 效率 ,Goh 中 提出 使 用 安全 索引 的 方法 实现 对 海量 密 文 数据 的 快速 
检索 ,并 基于 Bloom Filter 构建 了 一 种 适应 性 选择 关键 字 攻 击 安全 的 安全 索引 Z-IDX。 在 
该 索引 上 进行 搜索 时 ,处 理 每 个 文档 的 时 间 为 O(1), 并 且 能 够 处 理 任意 长 度 单词 。 但 是 
Bloom Filters 的 引入 使 得 该 方法 的 检索 结果 具有 一 定 的 错误 率 。 

2006 年 ,Curtmola ^$0* 提出 第 一 个 子 线性 搜索 时 间 的 方案 SSE-1 和 SSE-2 ,整个 文档 
集 关联 一 个 加 密 的 倒序 索引 ,每 个 人 口 由 关键 词 的 门 陷 和 相关 文档 标识 符 的 加 密集 组 成 。 
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方案 的 搜索 时 间 是 O GO ,r 是 包含 关键 词 的 文件 数量 。 他 们 利用 广播 加 密实 现 多 用 户 环境 
下 的 搜索 授权 ,并 在 Songi9 的 基础 上 给 出 更 严格 的 安全 性 定义 。Chase 等 中 提出 一 个 基于 
Suffix Trees 的 支持 子 串 搜索 的 SSE 方案 。Dai °°) 提出 两 个 基于 Physical Unclonable 
Functions (PUFs) 的 可 抵抗 内 存 泄露 的 SSE 方案 。 

为 了 实现 密 文 数据 更 新 ,Liesdonk 等 "中 第 一 次 明确 地 提出 动态 性 的 SSE 方案 ,但 他 们 
的 方案 只 支持 有 限 次 的 更 新 。Kamara 等 中 扩展 Curtmola 等 中 的 倒 排 索引 的 方法 ,提出 
动态 SSE 的 形式 化 的 安全 定义 ,并 构造 了 第 一 个 动态 的 .CKA2 安全 的 SSE 方案 。 接 下 来 ， 
在 文献 [37] 中 ,他 们 基于 关键 词 红 黑 树 (Keyword Red-Black,KRB) 构 造 了 可 并 行 且 支持 更 
新 的 SSE 方案 。Hahn 等 5 提出 一 个 子 线性 检索 时 间 的 方案 ,其 更 新 只 泄露 数据 访问 模 
式 。 该 方案 可 存放 搜索 历史 信息 ,用 于 优化 更 新 时 间 , 但 索引 不 具 动态 性 ,更 新 时 会 泄露 关 
于 关键 词 的 信息 Stefanov 4509 使 用 文档 关键 词 对 的 对 数 级 层次 结构 实现 了 数据 更 新 。 
Naveed 等 "1 引入 一 个 新 的 元 语 一 一 盲 存储 ,允许 用 户 将 一 组 文件 存储 在 远程 服务 器 上 ,但 
服务 器 并 不 知道 存储 了 多 少 文件 ,也 不 知道 单个 文件 的 长 度 。 当 文件 被 检索 时 ,服务 器 只 是 
知道 文件 的 存在 ,但 不 知道 文件 名 及 内 容 。Yang 等 "1 实现 了 一 个 常量 更 新 时 间 的 方案 。 

为 了 对 搜索 结果 按 相 关 度 排序 , Wang 等 "外 考虑 关键 词 词 频 信息 ,提出 基于 对 称 密码 保 
序 加 密 技术 的 单 关键 词 分 级 密 文 排序 搜索 方法 (Ranked SSE,RSSE)。 为 了 实现 模糊 检索 ， 
Li 等 中 提出 基于 编辑 距离 的 加 密 字符 串 模糊 搜索 方案 ,该 方案 为 每 个 字符 串 附 加 一 个 基于 
通配符 的 模糊 字符 串 组 ,用 多 个 精确 匹配 来 实现 模糊 搜索 。 在 文献 L[43] 中 ,他 们 使 用 属性 加 
密实 现 多 用 户 模 糊 关键 词 搜索 ,并 利用 基于 符号 的 遍历 树 搜索 算法 提高 搜索 效率 。Xhafa 
等 "外 使 用 匿名 的 基于 属性 加 密 技术 加 密 对 称 密 钥 ,将 访问 控制 信息 隐藏 在 密 文中 。Wang 
等 5 利用 压缩 技术 建立 存储 高 效 的 相似 关键 词 集 合 , 使 用 编辑 距离 作为 相似 性 度量 。 黄 汶 
维 等 5 设计 的 CESVMC 方案 ,运用 向 量 和 和 扼 阵 的 各 种 运算 ,支持 对 加 密 字符 串 的 模糊 
搜索 。 

以 上 方案 只 支持 单 关键 词 搜索 ,为 了 实现 多 关键 词 密 文 搜索 ,Moatazt 等 "中 提出 一 种 基 
于 关键 词 域 上 的 格拉 姆 - 施 密 特 正 交 化 过 程 的 布尔 搜索 方案 。 王 尚 平等 "中 采用 授权 用 户 和 
存储 服务 器 先后 对 关键 词 加密 的 方式 设计 了 一 个 基于 连接 关键 词 的 方案 ,该 方案 使 授权 用 
户 能 利用 连接 关键 词 的 陷 门 搜索 加 密 文档 。Cash 等 外 提出 OXT(Oblivious Cross-Tags) 协 
议 ,可 以 在 SSE 中 运行 常用 的 布尔 查询 。Kurosawa 甸 提出 基于 扩展 的 满足 标签 重用 隐私 
的 乱码 电路 (Garbled Circuitb) 实 现 多 关键 字 查询 。Shen 等 "站 提出 将 搜索 请 求 转换 为 多 项 
式 形 式 ,采用 拉 格 朗 日 多 项 式 表 示 用 户 的 偏好 ,并 将 偏好 多 项 式 变换 成 一 个 搜索 向 量 ,然后 
使 用 文件 矢量 和 搜索 向 量 的 内 积 表明 文件 和 搜索 请 求 之 间 的 相关 性 。 为 了 克服 集中 式 云 模 
型 中 存在 的 单一 点 故障 问题 ,Zhang 等 中 提出 一 种 适用 于 地 理 位 置 分 布 的 云 模型 中 的 多 关 
键 字 搜索 方案 。 

为 了 实现 多 关键 词 查 询 结 果 的 排序 ,Cao 等 中 扩展 了 Wang 等 5] 的 工作 以 支持 多 关键 
词 查 询 , 并 基于 安全 kNN(k-Nearest Neighbor) 查 询 技术 中 索引 向 量 与 查询 向 量 间 “ 内 积 相 
似 度 ”来 实现 排序 。Sun 等 “四 提出 一 种 支持 相似 度 排序 的 多 关键 词 文 本 检索 方案 ,基于 词 
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频 和 向 量 空间 模型 构建 索引 ,并 利用 余弦 相似 性 度量 来 实现 更 高 的 查询 精度 。Li EO 
分 段 矩阵 解决 关键 词 字典 的 膨胀 问题 ,可 以 在 增加 关键 词 或 文件 时 降低 字典 重 构 以 及 索引 
解密 时 间 。Yu 等 59 采 用 向 量 空间 模型 ,使 用 文件 向 量 记录 关键 词 和 文件 之 间 的 相关 性 得 
分 ,搜索 向 量 记录 用 户 的 偏好 ,两 向 量 的 内 积 表示 它们 的 相似 性 。Zhang SEU? 提出 同时 支 
持 多 个 数据 拥有 者 的 可 排序 的 多 关键 字 搜 索 方案 ,该 方案 基于 加 法 阶 和 隐私 保护 的 函数 族 
编码 ,使 服务 器 返回 最 相关 的 搜索 结果 而 不 泄露 敏感 信息 。Xu EO AR Dn TE SEHR 
关 性 得 分 ,Li 等 [基于 盲 存储 隐藏 数据 访问 模式 ,Fu 等 5 提出 支持 同 义 查询 的 排序 多 关 
键 词 搜索 方案 。Wang 等 中 利用 Bloom Filter 中 的 LSH(Locality-Sensitive Hashing) 函数 
构建 索引 提供 多 关键 词 的 模糊 检索 ,利用 欧 氏 距离 表示 相似 度 ,利用 内 积 计算 进行 排序 。 
Hu 等 外 基于 倒 排 案 引 和 Bloom Filter, 提 出 一 种 支持 通配符 搜索 、 模 糊 搜索 和 析 取 搜索 的 
支持 文件 更 新 的 方案 。Gajek" 提出 一 种 基于 约束 函数 加 密 的 动态 方案 。 

以 上 方案 都 是 基于 诚实 但 好 奇 (Honest-But-Curious, HBC) 的 服务 器 安全 模型 下 的 
SSE 方案 ,但 在 现实 环境 下 , 云 服务 器 都 不 是 完全 可 信 的 ,可 能 是 半 诚 实 的 (Semi-Honest) 
甚至 是 恶意 的 (Malicious) 。 在 半 可 信 但 好 奇 (Semi-Honest But Curious, SHBC) 与 不 可 信 
且 好 奇 (Dishonest and Curious,DHAC) 的 服务 器 安全 模型 下 ,要 求 对 服务 器 返回 的 搜索 结 
果 以 及 密 文 数据 进行 完整 性 验证 ,甚至 当 出 现 错误 时 ,服务 器 应 当 定 位 错误 并 进行 数据 
恢复 。 

2012 年 ,Chai 等 "中 提出 第 一 个 可 验证 的 SSE 方案 。 该 方案 扩展 了 Curtmola 等 C 的 
方案 ,允许 对 单 关键 词 的 搜索 结果 进行 验证 。Kurosawa 等 co 研究 了 可 验证 的 通用 可 组 合 
(Universally Composable) 安 全 的 SSE 方案 ,提出 可 验证 SSE 安全 的 形式 化 定义 。 在 文献 
[62] 中 ,他 们 提出 一 种 基于 RSA accumulator 的 可 验证 的 更 新 方案 ,并 证 明 为 UC 安全 
(Universally Composable Security) ,但 该 方案 需要 为 每 个 关键 词 生 成 一 个 MAC (Message 
Authentication Code) ,所 以 修改 文件 的 效率 比较 低 。Sun 等 "基于 先前 的 研究 工作 5 , 通 
过 对 索引 树 的 根 进行 RSA 签名 实现 搜索 结果 的 验证 。 接 着 ,他们 又 提出 一 个 UC 安全 的 可 
验证 的 动态 合 取 关 键 词 查询 方案 “0 。 该 方案 采用 倒 排 索引 结构 ,并 基于 双 线性 映射 构造 
Accumulation Tree 来 实现 验证 。Cheng 等 "提出 基于 安全 的 不 可 区 分 混淆 Cindistinguishable 
Obfuscation,i0) 电 路 的 可 验证 SSE 方案 ,支持 连接 和 布尔 查询 ,并 且 可 实现 公开 验证 ,但 
iO 电路 会 带 来 潜在 的 开销 。Zheng 等 外 提出 基于 属性 加 密 与 Bloom filter 的 可 验证 SSE 
WE. Wang 等 提出 基于 Bloom Filter“! 和 Symbol-treer'*" 实现 基于 通配符 的 模糊 关键 词 
搜索 及 对 搜索 结果 的 验证 。Fu 等 5 中 提出 支持 语义 搜索 的 可 验证 方案 。Bost 等 "站 改进 文 
献 L[39] ,提出 基于 Merkle Hash 树 和 Cryptographic Accumulators 的 可 验证 SSE 方案 。 

此 外 , 宋 伟 等 co 提出 了 一 种 基于 开源 Lucene 全 文 检 索引 擎 架构 的 密 文 全 文 检索 系 
统一 一 Mimir, 基 于 B 十 树 构 建 了 一 种 安全 密 文 索引 结构 。 与 传统 的 全 文 检 索 系 统 相 比 ， 
Mimir 密 文 索引 中 没有 存储 索引 词 的 位 置信 息 和 词 频 信 息 , 可 以 有 效 地 抵御 已 知 明文 攻击 、 
选择 明文 攻击 和 词 频 统计 攻击 。Ishal 等 "2 提出 一 种 基于 双 服 务 器 模型 的 应 用 于 数据 库 
环境 的 SSE 方案 。 项 菲 等 "' 汪 对 经 典 的 密 文 搜索 技术 进行 了 分 类 总 结 和 说 明 。 文 献 L[2] 和 
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L3j 围 绕 可 搜索 加 密 技术 基本 定义 、 典 型 构造 和 扩展 研究 ,对 可 搜索 加 密 相关 工作 进行 了 

综 上 所 述 , 密 文 搜索 技术 循 着 实际 需求 和 功能 丰富 的 方向 一 直 发 展 ,到 目前 为 止 ,已 经 
取得 了 非常 丰硕 的 研究 成 果 。 但 以 上 所 述 方案 并 不 全 部 适用 于 云 存储 环境 ,下 文 将 详细 讨 
论 云 存 储 环境 下 密 文 搜索 的 需求 ,并 介绍 最 新 云 存 储 密 文 搜索 的 研究 成 果 。 


6.3 云 存 储 环境 下 密 文 搜索 


本 节 介 绍 云 存储 环境 下 密 文 搜索 的 特殊 需求 和 最 新 的 云 存储 密 文 搜索 方案 。 


6.3.1. 云 存储 环境 下 的 特殊 需求 


密 文 数据 检索 成 为 信息 安全 和 密码 学 领域 的 一 个 重要 问题 ,主要 原因 有 以 下 几 点 。 

(1) 检索 是 我 们 访问 数据 的 重要 方式 。 

(2) 越 来 越 多 的 用 户 将 数据 存放 于 第 三 方 存储 服务 器 上 。 

CD 对 第 三 方 存储 服务 器 越 来 越 缺乏 信任 。 

云 存 储 服务 要 真正 实现 让 用 户 “ 存 得 放心 “ 找 得 快速 ”用 得 方便 ”, 就 必须 解决 密 文 环 
境 下 的 数据 检索 。 

针对 不 可 信 云 存储 环境 中 海量 的 数据 、 大 量 的 租户 及 数据 的 动态 性 等 特点 和 安全 需求 ， 
云 存储 环境 下 密 文 搜索 有 一 些 特殊 的 需求 。 

1. 不 可 信 云 存储 环境 的 安全 需求 

上 述 大 部 分 SSE 方案 基于 诚实 但 好 奇 (Honest-But-Curious, HBC) 的 服务 器 安全 模型 ， 
在 此 模型 下 ,用 户 认 为 服务 器 诚实 地 执行 搜索 协议 ,只 是 试图 推断 关于 数据 或 搜索 的 相关 信 
息 。 然 而 ,现实 环境 下 ,受到 硬件 、 软 件 、 操 作 系统 、 网 络 或 人 为 操作 等 因素 的 影响 , 云 存储 服 
务 器 都 是 不 完全 可 信 的 ,可 能 是 半 诚 实 的 (Semi-Honest) ,甚至 是 恶意 的 (Malicious)。 目 前 
关于 半 可 信 但 好 奇 (Semi-Honest But Curious. SHBC) 与 不 可 信和 且 好 奇 (Dishonest and 
Curious,DHAC) 的 服务 器 安全 模型 下 的 SSE 方案 比较 少 。 在 SHBC 和 DHAC 安全 模型 
下 ,服务 器 可 能 只 执行 部 分 搜索 操作 ,或 者 为 了 节省 资源 ,只 返回 部 分 搜索 结果 。 因 此 ,为 了 
保证 搜索 结果 的 完整 性 和 正确 性 ,要 求 服务 器 证 明 诚 实地 执行 了 搜索 操作 是 至 关 重 要 的 ,这 
也 是 可 验证 SSE 方案 的 功能 目标 。 可 验证 SSE 方案 可 以 对 服务 器 返回 的 搜索 结果 以 及 密 
文 数 据 进行 完整 性 验证 ,要求 服务 器 证 明 诚 实地 执行 了 搜索 操作 ,甚至 当 出 现 错误 时 ,服务 
器 应 当 定 位 错误 并 进行 数据 恢复 。 更 进一步 地 , 当 云 服务 器 不 诚实 时 ,能 有 一 定 的 惩处 措 
施 , 让 恶意 服务 器 承担 一 定 的 后 果 。 

2. 多 对 多 用 户 读 写 模式 的 需求 

不 同 于 传统 企业 级 单数 据 拥有 者 , 云 存储 环境 下 数据 搜索 应 用 具有 多 数据 拥有 者 数据 
发 布 及 选择 性 访问 授权 、 多 源 数据 查询 等 特征 。 该 特征 下 ,将 使 用 户 面临 更 具 威 胁 的 攻击 ， 
如 不 可 信服 务 提 供 者 与 部 分 恶意 数据 拥有 者 合谋 对 其 他 任何 用 户 隐私 的 攻击 等 。 数 据 加 密 
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后 ,海量 的 数据 将 涉及 大 量 私 钥 的 管理 。 在 多 对 多 用 户 读 写 模式 中 ,涉及 大 量 用 户 之 间 的 安 
全 认证 ,数据 共享 与 秘密 协商 ,同时 因为 我 们 的 方案 需要 多 用 户 之 间 可 以 授权 搜索 操作 并 进 
行 权限 回收 ,因此 权限 管理 是 研究 中 的 重点 和 难点 。 

实现 密 文 搜索 方案 中 的 多 对 多 用 户 读 写 是 一 件 复杂 的 事情 。 在 此 模型 中 ,如 果 有 一 个 
可 信 第 三 方 ,那么 相对 来 说 ,实现 会 容易 很 多 ,但 往往 这 样 的 可 信 第 三 方 是 很 稀缺 的 ,很 难 找 
到 这 样 一 个 合适 的 角色 。 

3. 大 数据 量 情景 下 的 效率 需求 

“不 管 是 安全 搜索 还 是 其 他 安全 或 隐私 保护 问题 ,如 果 频 繁 使 用 开销 极 大 的 公 钥 密码 ， 
其 意义 最 多 只 是 提供 了 一 个 “从 无 到 有 的 思路 。 一 个 方案 要 付 诸 实践 ,必须 减少 公 钥 密码 
的 使 用 次 数 ”, 与 文献 [73] 的 作者 观点 不 谋 而 合 ,在 本 人 的 博士 学 位 论文 [中 ,我 也 曾 表达 
了 这 样 的 观点 。 在 云 存储 服务 环境 下 ,大量 的 数据 与 大 量 的 用 户 , 需 要 有 高 效 的 密 文 搜索 
方案 。 


6.3.2 最 新 云 存储 密 文 搜索 方案 


针对 云 存储 环境 下 特殊 的 需求 ,已 经 有 一 些 最 新 的 研究 成 果 。 这 些 研究 为 云 存 储 环境 
下 密 文 搜索 找到 了 出 路 ,也 提供 了 新 的 研究 思路 。 下 文 将 详细 介绍 4 篇 最 新 研究 论文 。 

1. 基于 区 块 链 技术 的 云 上 加 密 数据 的 搜索 

区 块 链 " 呆 是 一 种 按照 时 间 顺 序 将 数据 区 块 以 顺序 相连 的 方式 组 合成 一 种 链 式 数据 结 
构 , 并 以 密码 学 方式 保证 数据 不 可 算 改 和 不 可 伪造 的 分 布 式 账本 。 它 也 是 利用 块 链 式 数据 
结构 来 验证 与 存储 数据 、 利 用 分 布 式 节 点 共识 算法 来 生成 和 更 新 数据 、 利 用 密码 学 的 方式 保 
证 数据 传输 和 访问 的 安全 ,利用 由 自动 化 和 脚本 代码 组 成 的 智能 合约 来 编程 和 操作 数据 的 一 
种 全 新 的 分 布 式 基础 架构 与 计算 方式 。 区 块 链 具 有 去 中 心 化 ,公开 透明 、 集 体 维护 \ 信 息 不 
可 臭 改 、 匿 名 性 等 特征 。 

在 文献 [76j 中 ,作者 提出 一 种 基于 区 块 链 的 去 中 心 、 可 靠 与 公平 的 密 文 搜索 方案 。 该 方 
案 利 用 区 块 链 的 抗 自 改 、 不 可 否认 且 可 验证 等 特性 ,使 得 数据 拥有 者 (Data Owner) ,数据 用 
户 (Data User) 和 云 存 储 服务 器 (Cloud Server) 三 者 可 以 公平 地 利用 资源 , 即 用 户 使 用 付费 
的 方式 访问 数据 拥有 者 的 数据 ,如 果 存 在 数据 不 正确 或 不 完整 的 情况 ,区 块 链 的 内 在 结构 会 
决定 这 次 交易 会 失败 ,数据 拥有 者 将 得 不 到 任何 回报 。 

在 该 方案 中 ,数据 拥有 者 与 数据 用 户 作为 点 对 点 节点 存储 数据 索引 信息 ,并 且 采 用 以 太 
ji Ethereum) ? rpg fie & A (Smart Contract) 的 方式 存储 ,区 块 链 的 内 在 特性 决定 该 方案 
天 然 地 具有 抵制 恶意 服务 器 的 能 力 。 

智能 合约 是 一 种 以 数据 化 方式 传播 ,验证 与 执行 的 计算 机 程序 , 它 允 许 在 没有 第 三 方 的 
情况 下 进行 可 信 交 易 , 所 有 交易 可 追踪 且 不 可 逆 , 其 目标 是 既 提 供 优 于 传统 合同 方法 的 安全 
保障 ,又 减少 与 合同 相关 的 其 他 交易 成 本 。 智 能 合约 概念 于 1994 年 由 Nick Szabo"? $4 wx 
提出 。 

作者 使 用 智能 合约 取代 中 心服 务 器 ,实现 了 一 个 分 布 式 的 保障 隐私 的 密 文 搜索 方案 。 
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有 了 区 块 链 机 制 , 即 使 有 恶意 的 用 户 ,也 不 需要 进行 验证 ,用 户 可 以 放心 地 接收 到 正确 的 搜 
索 结 果 。 在 该 方案 中 ,引入 了 公平 性 (Fairness) 机 制 , 利 用 区 块 链 的 激励 机 制 ,保障 诚实 的 
用 户 可 以 得 到 回报 ,而 恶意 用 户 什 么 也 得 不 到 。 他 们 实现 了 一 个 部 署 在 本 地 仿真 的 网 络 上 ， 
使 用 官方 以 太 坊 测试 网 络 的 原型 系统 。 

该 方案 的 数据 索引 也 是 使 用 倒 排 索引 结构 ,但 方案 并 没有 考虑 加 密 数据 的 存放 ,认为 加 
密 数 据 可 以 存储 于 任何 分 布 式 存储 网 络 , 比 如 星际 文件 系统 (InterPlanetary File System, 
IPFS)°) 。 其 系统 结构 如 图 6-7 所 示 ,数据 拥有 者 将 加 密 的 倒 排 索引 存放 到 以 太 坊 智能 合 
约 上 ,请 求 访问 时 发 送 搜索 凭证 (Search Token) ,智能 合约 利用 凭证 中 的 密 钥 读 取 相 应 索引 
信息 ,返回 搜索 结果 。 同 时 ,该 方案 还 支持 索引 的 更 新 操作 。 


Onn € 


图 6-7 系统 结构 


该 方案 定义 了 4 个 算法 : Setup, Search, Add 和 Delete, 分 别 描述 如 下 。 

Setup 算法 如 图 6-8 所 示 。 该 算法 首先 为 每 个 关键 词 生成 倒 排 索引 ,然后 将 索引 中 的 文 
件 标识 (File Identifier) 分 成 +1 份 ,每 份 包括 p 个 文件 ID。 对 于 每 一 份 文件 ID 集 , 生 成 
随机 数 r 、 随 机 化 后 的 文件 ID E a WEMEL d ,r) 按 字母 序 存 人 列表 。 然 后 将 列表 
又 分 成 n 个 块 ,逐一 发 送 到 智能 合约 ,将 (1.d11r) 存 入 智能 合约 的 字典 中 。 


Setup(DB): 
1) The data owner initializes an empty list L, and an empty dictionary c, and samples three keys K, K^, KP & {0,1}. 
2) For each keyword w € W: 
a) Kı € F(K,1|\w); Ka  F(K,2]|w); 
b) Set a + 9901 |. c+ 0, where p denotes the number of file identifiers that can be packed. 
c) Divide DB(w) into a 十 1 blocks. Pad the last block to p entries if needed. 
d) For each block in DB(w): 
- {+ id; |lido||...]lidy; r È (0,1): d id @ Gx, (r); Le F(Ki.0); c++. 
- Add (l,d,r) to the list L in lex order. 
3) Set EDB = L; Partition EDB into n blocks EDB; for 1 <i < n, and send them to the smart contract. 
4) The smart contract initializes two empty dictionaries y and y^, and an empty list IDgai. 
5) For each received EDB;, the smart contract parses each entry in EDB; into (l, d, r), and adds each (l, d||r) to ^. 


图 6-8 Setup 算法 


Search 算法 如 图 6-9 所 示 。 该 算法 首先 根据 查询 关键 词 生成 搜索 时 需要 的 几 个 密 钥 ， 
然后 根据 索引 大 小 将 该 搜索 分 解 为 R 轮 , 每 轮 有 step 步 ,相当 于 整个 查询 过 程 要 进行 R 次 
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交易 ,每 次 交易 读 取 step * p 个 文件 ID。 该 方案 的 核心 搜索 思路 是 ,在 生成 索引 时 加 入 了 
定位 符 ! ,那么 查询 时 ,便利 用 该 定位 符 找到 关键 词 对 应 的 文件 ID。 在 搜索 算法 中 ,涉及 方 
案 提 到 的 公平 性 ,每 个 用 户 都 需要 为 他 的 查询 操作 付费 ,而 且 在 以 太 坊 的 智能 合约 中 ,使 用 
Gas 作为 支付 的 基本 单位 ,查询 用 户 一 方面 要 向 数据 拥有 者 支付 预 设 的 一 个 费用 ,同时 还 要 
向 合约 中 执行 操作 的 节点 (Worker 或 Miner) 支 付 一 定 的 协助 费用 。 


Search(K, K^, K?,w): 
1) Ki — F(K,l||w), K2 + F(K,2||w), Kf — F(K^,1|jw), K — F(K^,2]|w), KP — F(K?,w). 
2) The data owner sets c + 0, and estimates R and step. 
3) For i — 0 to R: 
Send search token ST = (Ki, K2, Kf', Ks’, KP, c) to the smart contract; Set c + c+ step. 
4) The smart contract asserts that the estimated gas cost is lower than the balance, and then: 
a) For i = 0 until Get returns | or i > step: 
- Le F(Ki,c); d,r € Get(»,0); id — d Gx, (r); c++; i++. 
- Parse id into (idi, --- ,idp); Assert id; ¢ IDgei (1 < j < p) and save id; to the state. 
b) Assert y^ has not been searched. 
c) For c — 0 until Get returns 1: 
- Le F(K$. c); dr + Get(y^,1); id + de Ga(r); c++; 
- Assert id ¢ IDaa and save id to the state. 


6-9 Search 算法 


为 了 支持 索引 的 更 新 ,增加 了 Add 算法 和 Delete 算法 ,其 主要 思想 是 维护 一 个 Add 和 
一 个 Delete 列表 。 在 搜索 算法 中 ,除了 查询 原 有 索引 ,还 要 查询 Add 列表 ,并 且 要 判断 查询 
到 的 文件 ID EBE Delete 列表 中 ,最 后 查询 的 结果 就 是 诛 有 索引 和 Add 列表 中 所 有 文件 
ID 去 掉 Delete 列表 中 相应 记录 。Add 算法 如 图 6-10 所 示 。 该 算法 首先 计算 所 有 相关 密 
钥 , 然 后 判断 新 加 入 的 关键 词 对 应 的 文件 ID 是 否 在 Delete 列表 中 。 若 在 , 则 删除 Delete 列 
表 中 相应 记录 ,然后 将 其 余 的 文件 ID 像 Setup 算法 那样 加 入 区 块 链 中 。 


Add(K, K^, KP id, Wig) : 
1) The data owner initializes an empty list L^, and then: 
a) For each keyword w € Wig: 
- Ki € F(K,1\|w); Ko + F(K,2\|w); Ke € F(K^,1|w); K € F(KA,2]w); KP € F(KP,w). 
- r È (0,1); c + Get(o,w); If c =L then c 0; 1 F(Kf o); d + id © Gra (r); ida — F(KP, id). 
- Add (I, d, r,idgai) to L^ in lexicographic order. 
b) Send L^ to the contract. 
2) The smart contract initializes an empty list re of size LA}, and parses each tuple of L^ into (1, d,r,idge)), set i + 0. 
3) For each tuple in L^: 
if idye! € IDge}, then reli] + 1 and delete idde from IDge1, else reli] + 0 and add (l, d||r) to 74; i++. 
4) The data owner reads re from the smart contract, and then: 
For i = 0 to |re|: 
- if re[i] = 0 then fetch the i-th keyword w in Wig; c + Get(c, w); c++; Insert (w,c) into c. 


6-10 Add 算法 


Delete 算法 如 图 6-11 所 示 。 该 算法 将 被 删除 的 关键 词 包含 的 文件 ID 加 入 Delete 列 
表 中 。 
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Delete( K? , id, Wia): 
1) The data owner initializes an empty list LP, and then: 
For each keyword w € Wig: 
- KP + F(KP,w), idia + F(KP,id); Add idue to LP in lex order. 
2) Send LP to the contract. 
3) The smart contract adds iddel to IDuel for each element idgg; in LP: 


6-11 Delete 算法 


该 方案 提供 了 一 种 抵制 恶意 服务 器 ,保证 用 户 公平 性 的 思路 。 该 方案 的 缺点 在 于 ,只 支 
持 单 关键 词 的 检索 。 

其 他 基于 区 块 链 技术 实现 密 文 搜索 的 方案 还 有 文献 [80] ,该 方案 将 索引 与 数据 全 部 存 
储 于 区 块 链 的 对 等 网 络 中 。 本 书 作 者 认为 这 种 方式 需要 有 一 定 的 驱动 机 制 ,让 用 户 相信 存 
在 这 样 一 个 大 规模 的 对 等 网 络 可 以 存放 大 量 的 数据 ,而 且 保证 数据 随时 随地 可 以 访问 。 

2. 云 环境 下 支持 隐私 保护 的 大 规模 的 基于 内 容 的 加 密 图 像 搜索 

由 于 图 像 处 理 技 术 的 快速 发 展 ,大 量 高 分 辨 率 的 照片 和 视频 以 指数 级 的 速度 增长 ,使 得 
这 样 海量 的 图 像 数 据 的 存储 、 共 享 和 搜索 成 为 一 个 极 具 挑 战 性 的 问题 。 例 如 ,Facebook 上 
每 月 增加 的 图 片 超过 10 亿 张 ,Flickr 图 片 社交 网 站 2015 年 用 户 上 传 图 片 数 目 达 7. 28 亿 
3K ,淘宝 网 的 后 端 系统 上 保存 着 286 亿 多 张 图 片 。 如 何 组 织 、 表 达 、 存 储 、 管 理 、 查 询 和 检索 
这 些 海 量 的 数据 ,是 传统 数据 库 技术 面临 的 一 个 重大 挑战 。 由 于 图 像 具 有 形象 直观、 内容 
丰富 等 特点 ,更 接近 人 们 的 认 知 方式 ,因此 成 为 不 可 或 缺 的 多 媒体 内 容 。 如 何在 浩瀚 的 图 像 
库 中 方便 ,快速 .准确 地 查询 用 户 所 需 的 图 像 , 成 为 图 像 信息 检索 领域 研究 的 热点 。 而 在 当 
前 云 计 算 环 境 下 ,如 何 保障 图 像 信 息 的 隐私 安全 ,也 是 一 个 极 具 挑 战 性 的 问题 。 

2018 年 年 初 Facebook 被 曝 其 8700 万 用 户 数据 遭 到 泄露 ,一 时 间 用 户 隐 私 权 保护 问题 
成 为 外 界 关 注 焦点 。 根 据 伊 利 诺 伊 州 州 法 ,每 张 被 Facebook 私自 决定 识别 的 照片 ,都 可 能 
获得 1000 一 5000 美元 的 赔偿 。 因 数据 隐私 保护 问题 给 该 公司 带 来 巨额 罚单 的 同时 ,也 使 其 
声誉 及 用 户 对 其 的 认可 与 信任 度 大 幅 下 降 。 

2017 年 ,一 款 名 为 Facezam 的 App 应 用 宣称 其 利用 部 署 在 云端 的 神经 网 络 , 可 以 在 10 
秒 内 完成 对 数 十 亿 Facebook 账号 的 对 比 匹配 ,并 达到 70% 的 正确 率 。 其 令 人 惊讶 的 索引 
和 面部 识别 技术 ,让 Facebook 用 户 深 感 不 安 。 虽 然后 来 发 现 Facezam 是 一 家 名 为 Zacozo 
的 广告 创意 公司 的 一 个 骗局 ,但 此 事件 也 不 是 子虚乌有 ,其 功能 以 目前 的 技术 是 不 难 实 
现 的 。 

例如 ,Facebook Messenger 应 用 新 增 了 一 项 人 工 智 能 功能 ,可 以 从 上 传 到 该 服务 的 照 
片 中 识别 出 用 户 的 好 友 。 这 项 新 功能 最 初 在 澳大利亚 推出 ,但 短期 内 可 能 无 法 进入 欧洲 市 
场 。 其 原因 在 于 ,在 人 脸 识 别 技术 是 否 侵犯 用 户 隐 私 这 一 问题 上 ,该 公司 一 直 与 欧盟 数据 保 
护 监 管 者 存在 分 歧 。 

在 当前 的 云 计算 大 背景 下 ,已 经 有 一 些 云 服务 提供 者 支持 图 像 和 视频 数据 存储 服务 , 比 
如 Amazon Cloud Drive, Apple iCloud, Cloudinary, Flicker, Youtube 和 Google 等 。 
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通常 ,个 人 照片 和 图 像 数 据 中 包含 有 大 量 的 敏感 信息 ,比如 人 的 肖像 ,与 他 人 的 关系 、 情 
景 、 位 置 和 亲属 关系 等 ,而 目前 关于 云 环境 中 的 图 像 隐私 保护 方案 还 比较 缺乏 。 

为 了 保护 图 像 信息 的 隐私 ,通常 是 在 将 图 像 上 传 到 云 存储 服务 器 之 前 ,对 图 像 数 据 进行 
加 密 处 理 ,而 图 像 加 密 后 ,如 何在 用 户 大 量 的 图 像 中 找到 需要 的 图 片 是 一 个 吸 待 解决 的 
问题 。 

图 像 检索 的 本 质 是 对 图 像 特征 的 提取 与 基于 特征 的 匹配 技术 。 图 像 的 特征 包括 图 像 的 
文本 特征 和 视觉 特征 。 所 谓 图 像 的 文本 特征 ,是 指 与 图 像 相 关 的 文本 信息 ,比如 图 像 的 名 
称 、 对 图 像 的 注解 文字 等 。 图 像 的 视觉 特征 是 指 图 像 本 身 所 拥有 的 视觉 信息 ,又 可 以 进一步 
分 为 通用 的 视觉 特征 和 领域 特征 ,如 颜色 ,纹理 ,形状 等 属于 图 像 通用 特征 ,而 光谱 特征 则 属 
于 地 理科 学 中 遥感 影像 独 有 的 特征 。 图 像 的 内 容 包括 图 像 的 视觉 信息 等 物理 特征 ,还 包括 
视觉 特征 所 带 来 的 高 层 语义 特征 。 物 理 特征 属于 低层 视觉 信息 ,主要 包括 颜色 、 纹 理 JE s 
请 义 信息 属于 图 像 的 高 层 视觉 信息 ,主要 包括 对 象 . 空 间 关 系 ,场景 ,行为 .情感 等 图 像 内 容 。 

图 像 检索 按 描述 图 像 内 容 方 式 的 不 同 可 以 分 为 两 类 ,一 类 是 基于 文本 的 图 像 检索 
(Text Based Image Retrieval. TBIR), 另 一 类 是 基于 内 容 的 图 像 检 索 (Content Based Image 
Retrieval, CBIR) 。 早 期 基于 文本 的 图 像 检 索 技 术 , 需 要 对 图 像 进行 标注 , 带 来 较 大 的 额外 
开销 ,使 得 它 只 适用 于 小 规模 的 图 像 数据 。 针 对 目前 的 大 规模 图 像 数据 ,比较 广泛 采用 的 是 
基于 内 容 的 图 像 检 索 。 

典型 的 基于 内 容 的 图 像 检 索 基 本 框架 如 图 6-12 所 示 。 它 利用 计算 机 对 图 像 进 行 分 析 ， 
建立 图 像 特 征 矢量 描述 并 存 人 图 像 特 征 库 。 当 用 户 输入 一 张 查询 图 像 时 ,用 相同 的 特征 提 
取 方 法 提取 查询 图 像 的 特征 得 到 查询 向 量 , 然 后 使 用 某 种 相似 性 度 测 量 方法 计算 查询 向 量 
与 特征 库 中 各 个 图 像 的 特征 向 量 的 相似 性 大 小 ,最 后 按 相似 性 大 小 进行 排序 并 顺序 输出 对 
应 的 图 片 。 


数字 图 像 检索 结果 


原始 图 像 座 对 象 特征 索引 库 
图 6-12 ”图像 检 索 基 本 框架 


但 是 , 密 文 图 像 信息 的 检索 则 涉及 加 密 图 像 上 的 处 理 。 最 近 , Zhang 5$07 提出 一 种 云 
环境 下 支持 隐私 保护 的 大 规模 的 基于 内 容 的 加 密 图 像 搜索 方案 ,利用 同 态 加 密 算法 进行 密 


第 6 章 ” 密 文 云 存 储 信息 检索 D 125 


文 域 上 数据 的 处 理 。 该 方案 利用 基于 属性 的 密码 算法 ,采用 访问 树 结构 ,从 而 支持 细 粒 度 的 
访问 控制 。 

在 该 方案 中 ,搜索 用 户 可 以 通过 数据 拥有 者 基于 属性 的 授权 访问 他 的 图 像 文件 ,而 不 需 
要 用 户 与 数据 拥有 者 之 间 的 交互 ,其 大 部 分 计算 密集 型 的 工作 都 由 云 服务 器 完成 。 该 方案 
有 4 个 实体 , 即 用 户 (Users)\ 云 服务 器 (Cloud Server. CS) , 密 钥 代理 (Key Agent,KA) 和 一 
个 可 信 方 (Trusted Party. TP) ,其 中 云 服务 器 和 密 钥 代理 是 半 可 信 的 。 

该 方案 中 的 KA 和 CS 在 云端 ,实验 时 采用 4 台 PC 搭建 了 一 个 集群 ,部 署 了 Hadoop 
HDFS 和 MapReduce, Hi 1 个 名 字 节 点 (Name Node) 和 4 个 数据 节点 (Data Node) 组 成 ,TP 
用 一 台 专 门 的 PC 实现 ,客户 端 使 用 Android 手机 和 平板 电脑 ,测试 数据 集 使 用 了 一 百 万 多 
张 现实 中 的 生活 照片 ,并 且 使 用 OpenCV 作为 特征 提取 库 。 

查询 图 像 的 特征 向 量 为 X=={x1,…,zx。), 有 NN ME iig Y! ,…,Y*}), 向 量 的 相似 
度 测量 函数 定义 如 公式 (6-1) 所 示 , 采 用 k 近邻 算法 (k-Nearest Neighbors,k-NNs) 进 行 相 
似 性 分 值 的 计算 。 

S"=S"+6(2;595) 
A: 
1 if yj is a k-NN of x; 
àGyD-| C (6-1) 
0 otherwise 

TE k-NNs 中 ,使 用 欧 氏 距离 (Euclidean Distance) 来 度量 相似 性 ,并 且 利 用 聚 类 方法 
(Clustering) 来 减少 搜索 时 间 , 使 用 多 级 同 态 加 密 (Multi-level Homomorphic Encryption) 
来 实现 数据 拥 者 和 查询 用 户 的 非 交 互 授权 。 其 中 , 同 态 加 密 算 法 的 同 态 性 如 公式 (6-2) 
所 示 。 

HE. E(m,.k) * HE. ECn; ,&) — HE. ECm, m; ,k) 
HE. E(m,.k) + HE. ECm; sk) = HE. E(m, 4- m; ,k) (6-2) 

多 项 式 函 数 的 同 态 性 如 公式 (6-3) 所 示 。 

fXHE. En; sk), HE. ECn; .&) ,* HE. E(m, sk)) = HE. E(f (mi «ma 727),R) 


(6-3) 
密 钥 的 转换 如 公式 (6-4) 所 示 。 
k= [s 
(J|) Een + ([[k:)=E (m, J| 5;) 2 HE. Eco 4) (6-4) 


欧 氏 距离 计算 如 公式 (6-5) 所 示 。 
DG y) =d (x,y) 
HE. E(D(x.y)+k) = >) CHE. EGc G) 44) — HE. ECy GO 477 (6-5) 
因为 同 态 密码 算法 的 同 态 性 , 欧 氏 距离 的 计算 可 以 外 包 给 任何 云 服 务 器 。 该 云 服 务 器 
既 不 用 知道 密 文 的 密 钥 ,也 不 用 知道 特征 向 量 ,而 且 其 计算 结果 也 不 会 泄露 。 设 OD 表示 同 
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态 函 数 , 欧 氏 距 离 的 计算 公式 如 (6-6) 所 示 。 
®, (HE. E(x.k). HE. E(y-k)) = HE. E(D(x-y).k) (6-6) 
该 方案 的 系统 结构 图 如 图 6-13 所 示 。 首 先 数据 拥有 者 从 原始 图 像 提 取 特 征 ,生成 图 像 
描述 符 , 然 后 根据 这 些 描述 符 构造 索引 ,同时 将 该 索引 发 送 到 云 服 务 器 存储 ,将 图 像 描述 符 
使 用 同 态 密码 算法 加 密 发 送 给 KA。 云 服务 器 通过 访问 树 判 断 查询 用 户 是 否 满足 数据 拥有 
者 预 设 的 属性 条 件 , 如 果 是 授权 用 户 , 云 服务 器 就 查询 数据 找到 匹配 的 图 像 描 述 符 , 然 后 请 
求 KA 进行 密 钥 转换 ,利用 同 态 性 计算 查询 图 像 与 图 像 库 中 图 像 的 相似 性 得 分 ,并 返回 
Top-k 个 相似 性 分 值 最 高 的 图 像 ID。 


” 共享 
、 数据 


Hi 
加 密 的 | “ex 
描述 符 i 数据 流 


6-13 ”系统 结构 


TP 负责 生成 密 钥 。 在 初始 化 阶段 ,TP 生成 用 于 同 态 加 密 的 主 密 钥 (Master Key)k ,并 
生成 两 个 随机 密 钥 cs 和 kka ,满足 kcskka =k Hi kes A kga 通过 安全 信道 分 别 发 送 给 CS 
Al KA, 

在 密 钥 生成 与 策略 公告 阶段 ,一旦 有 新 用 户 加 入 ,TP 生成 3 SLE ki 
FE R= RRR Hi kuski k HTL SIE A LAXE ATH! LCS ALKA, 

每 个 用 户 为 自己 的 数据 自 定义 访问 策略 ,用 访问 树 作 为 CP-ABE 的 授权 策略 树 ,将 属 
性 的 Hash 值 作为 叶子 节点 ,查询 用 户 将 自身 属性 的 Hash 值 发 送 给 CS,CS 根据 用 户 的 属 
性 是 否 满足 访问 树 决 定 是 否 授权 查询 操作 。 

当 用 户 上 传 图 像 时 ,他 首先 提取 特征 描述 符 , 然 后 使 用 自己 的 密 钥 加 密 这 些 特征 向 量 ， 
见 公式 (6-7) 。 

HE. EC(X,,4 X, 2) Ry) (6-7) 

创建 索引 时 ,用 户 将 特征 向 量 的 密 文 发 送 给 KA, KA 计算 公式 如 (6-8) 所 示 ,得 到 使 用 
kk D BE BY s SC 

kh’) HE. E((X,, 7) 5,) RU= HE. ECOGa o) b RIO (6-8) 
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然后 ,KA 将 以 上 生成 的 新 密 文 发 送 给 CS,CS 执行 操作 见 公 式 (6-9) ,得 到 最 后 的 密 文 。 

CS 将 此 用 户 的 索引 发 送 到 CS 的 数据 库 , 但 要 标记 该 索引 的 数据 拥有 者 。 
Ri HE. ECQXi1 7) kaka) k” = HE. EQ Xia m) kak uke) 
= HE. ECL, 7) sk) (6-9) 

搜索 过 程 分 为 两 个 阶段 ,在 第 一 级 搜索 (Level-1 Search) 中 ,查询 用 户 根据 查询 的 图 像 
生成 查询 向 量 X, ,并 使 用 其 密 钥 加 密 查询 向 量 HE. ECX, ,k,) ,然后 发 送 给 KA, 

KA 生成 新 的 密 文 HE. ECX, sk, k ) 并 发 送 给 CS,CS 最 后 生成 密 文 见 公 式 (6-10)。 

HE. ECX, ,ks & A" jks) = HE. E(X, ,k es) 
= HE. ECX, sk xa) (6-10) 

KA 找到 与 查询 特征 向 量 最 近 的 聚 类 ,并 得 到 该 类 中 的 kNN。KA 的 引入 可 以 让 CS 
得 不 到 相似 距离 。 

在 第 二 级 搜索 (Level-2 Search) 中 ,请求 CS 计算 2 与 所 有 NN 聚 类 向 量 的 距离 ,将 距 
离 密 文 发 送 给 KA.KA 解密 并 确定 ,基于 距离 向 量 和 相应 的 图 像 ID, 计 算 所 有 图 像 的 相似 
性 得 分 ,将 最 高 得 分 的 图 像 ID 发 送 给 用 户 , 用 户 再 从 数据 库 中 检索 图 像 。 

该 方案 的 缺点 在 于 ,一 个 可 信 第 三 方 的 实现 在 实际 场景 中 较 难 找到 。 

3. 基于 CAK-means 聚 类 算法 的 可 搜索 加 密 方案 

聚 类 就 是 将 一 个 数据 对 象 的 集合 划分 成 类 似 的 对 象 集 的 过 程 。 每 一 个 类 也 称 为 簇 
(Cluster) ,每 一 个 簇 都 有 一 个 中 心 点 , 同 簇 中 的 对 象 彼此 相近 ,不 同 簇 中 的 对 象 相 异 。 文 档 
聚 类 就 是 对 文档 进行 划分 ,使 得 同类 间 的 文档 相似 度 比较 大 ,不 同类 的 文档 相似 度 比较 小 。 
主要 的 聚 类 算法 可 以 分 为 如 下 几 类 : 基于 层次 方法 的 聚 类 算法 .基于 密度 的 聚 类 算法 .基于 
网 格 的 聚 类 算法 以 及 基于 模型 的 聚 类 算法 。 

为 了 提高 密 文 检索 的 效率 ,Chen 等 中 提出 了 一 种 基于 层次 聚 类 的 支持 隐私 保护 和 排 
序 的 关键 词 密 文 检索 方案 (Multi-keyword Ranked Search over Encrypted data based on 
Hierarchical Clustering Index, MRSE-HCI) 。 该 方案 提出 了 一 种 基于 动态 K-means 的 分 层 
RÆ (Quality Hierarchical Clustering,QHC) 算 法 , 它 事 先 指 定 一 个 闽 值 ,在 此 基础 上 对 文 
档 进行 聚集 并 划分 为 多 个 子 簇 ,直到 达到 集群 的 约束 条 件 。 此 外 ,还 引入 了 最 小 喻 希 子 树 结 
构 来 验证 检索 结果 的 完整 性 。 但 QHC 算法 需要 经 过 多 次 迭代 计算 才能 得 到 一 个 稳定 的 
K fü. 

为 了 改善 以 上 问题 ,作者 提出 了 一 个 基于 CAK-means(a Combination of Affinity propagation 
CAP) and K-means clustering) 聚 类 算法 的 可 搜索 加 密 方 案 [s] 。 因 为 K-means 算法 需要 事 
先 指定 K 值 以 及 K 个 初始 类 簇 中 心 点 ,而 这 KK 个 中 心 点 往往 是 随机 选取 的 ,因而 具有 很 大 
的 随意 性 。K-means 聚 类 方法 通过 多 次 迭代 得 出 更 为 合理 的 聚 类 结果 。 为 了 提高 K 值 和 
中 心 点 选取 的 效率 , 先 使 用 AP 算法 初始 化 K-means, 得 到 较为 合理 的 KK 值 和 中 心 点 ,然后 
再 进行 K-means 聚 类 。 该 方法 不 仅 大 大 减少 了 算法 迭代 的 次 数 , 而 且 提 高 了 聚 类 结果 的 科 

此 外 ,因为 同 个 聚 类 中 的 文档 通常 以 较 大 概率 同时 读 取 , 为 了 改进 查询 效率 ,该 方案 提 
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出 将 同一 聚 类 中 的 密 文 文档 连续 存储 ,可 以 极 大 地 提高 文件 读 写 效率 。 

该 方案 使 用 向 量 空间 模型 ,生成 每 个 文档 的 关键 词 二 进 制 向 量 , 然 后 使 用 安全 k-NNs 
算法 和 欧 氏 距离 计算 文档 的 相似 性 得 分 ,对 搜索 结果 进行 排序 。 

K-means 方法 是 把 含有 个 对 象 的 集合 划分 成 指定 的 天 SE. BE TE PTR BOE 
均值 称 为 该 篮 的 聚 点 (中 心 ) ,两 个 簇 的 相似 度 就 是 根据 两 个 聚 点 而 计算 出 来 的 。 假 设 聚 点 
zy HE m 个 属性 (在 本 文 介绍 的 文档 聚 类 中 指 的 是 m 个 关键 词 ) , 取 值 分 别 为 mi emen 
Lm Visder Vm M) a Fl y 的 距离 如 公式 (6-11) 所 示 。 


» Iz, — y l’) (6-11) 

近邻 传播 算法 (Affinity Propagation Algorithm) ,简称 AP 算法 ,是 由 Brendan J. Frey 
和 Delbert Dueck" F 2007 年 在 著名 科学 杂志 《科学 》CSCIENCE) 中 提出 的 一 种 新 型 的 聚 
类 算法 。 该 算法 的 基本 思想 是 将 数据 看 成 网 络 中 的 节点 ,通过 在 数据 点 之 间 传 递 消息 一 
吸引 度 (Responsibility) 和 归属 度 (Availability) ,不 断 修改 聚 类 中 心 的 数量 与 位 置 ,直到 整 
个 数据 集 相似 度 达 到 最 大 ,同时 产生 高 聚 类 中 心 , 并 将 其 余 各 点 分 配 到 相应 的 聚 类 中 。 

该 方案 的 文件 加 密 、 索 引 构造 、 聚 类 和 搜索 过 程 如 图 6-14 所 示 。 首 先 数据 拥有 者 将 每 
个 文件 转换 成 一 个 关键 词 二 进 制 向 量 ; 然后 调用 CAK-means 聚 类 算法 建立 聚 类 索引 ; 最 
后 调用 安全 k-NNs 算法 加 密 索引 。 向 量 的 维 数 取 决 于 字典 的 大 小 , 它 直接 决定 了 向 量 转换 
的 时 间 。 生 成 完整 索引 的 时 间 与 数据 集 下 中 的 文件 数 和 字典 中 关键 字 的 数量 有 关 。 


e Uum LIDA 
8 FHF, Fos... Fn} C= e C. Ch 云 服务 器 ^» fe 
数据 拥有 者 | 提取 关键 词 & 


文档 向 量 
产生 二 进 制 向 量 
Wi W. Wi W2 Wy 
fi = HA Hy fi d 15 
A 产生 加 权 向 量 foie 图 
Sn Ím fma Sram fa L3 B 
ee 利用 安全 kNN 算法 加 密 / 
f £ m f 插入 文档 id 信息 得 到 
1 9n 9p °° 9I» RA 
B Sn Sw = Sa | 运行 AP 算 法 | 运行 Kmeans 算 法 pum 
dio 1 L- mas “| K and Cv 得 到 聚 类 索引 了 
Jn Sm So Sam 


6-14 文件 加 密 、 索 引 构造 、 聚 类 和 搜索 过 程 
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详细 的 检索 过 程 : 在 用 户 收 到 检索 陷 门 后 ,服务 器 利用 相似 性 得 分 公式 计算 出 索引 中 
每 个 簇 中 心 点 与 检索 陷 门 的 相关 性 分 数 ,得 到 一 个 相关 性 的 排序 结果 ; 然后 取出 相关 性 最 
高 的 簇 中 心 点 ,计算 该 簇 内 其 他 点 与 陷 门 的 相关 性 分 数 ,设置 一 个 姜 值 ,分 数 高 于 该 阔 值 的 
点 则 被 提取 出 来 ; 接着 对 临近 的 簇 依 次 重复 以 上 步骤 ,直到 得 到 满足 条 件 的 文档 。 基 于 
CAK-means 算法 的 SSE 方案 具体 构造 如 下 : 
Keygen(1'); 
(1) 数据 拥有 者 随机 产生 一 个 (2 十 x 十 1) 维 向 量 S AV ST GHEY Cn nuo DX Cn Fu +1) 
维和 矩阵 {Mi,M,},sk = {S,M,.M,}; 
(2) 随机 产生 一 个 n TEAR S 
Index(F ,sk): 
(1) fi A AMA sk k) MEE F; 
(2) 从 下 中 提取 出 字典 W; 
CD 将 正中 的 每 个 文档 F, 转换 为 向 量 fis 
(4) 调用 CAK-means 聚 类 算法 生成 明文 聚 类 索引 I; 
(5) 通过 将 f£; 分 解 为 两 个 向 量 ,将 f; 的 维度 从 扩展 到 (十 x 十 1) ,如 下 所 示 。 
如 果 S 的 第 j 位 是 0 
dij] =G] =d] 
否则 
di[j] = di;[j]— diU] 
将 索引 加 密 为 {MT fi Mi f?} 并 上 传 给 云 服务 器 。 图 6-14 详细 介绍 了 密 文 聚 类 索引 的 
构造 过 程 。 
EncCk F): 利用 对 称 加 密 算法 加 密 文档 集合 下 并 上 传 至 云 服务 器 。 
Trapdoor(Q sk); 数据 用 户 将 要 搜索 的 关键 字 发 送 给 数据 拥有 者 。 在 分 析 查 询 请 求 之 
后 ,数据 拥有 者 将 用 字典 W 建立 查询 向 量 Q。 
通过 将 Q 分 解 为 两 个 向 量 ,将 Q 的 维度 从 nn 扩展 到 (n 十 wu 十 1) ,如 下 所 示 。 
如 果 S 的 第 i 位 是 1 
QD]=QL]=QLJ 
否则 
Q'L]-QU1-— QL] 
最 后 ,产生 陷 门 Te= (M Q M; Qi ,并 且 将 其 发 回 给 数据 用 户 。 
Search(To ,T。 ,kw ): 云 计算 服务 器 接收 到 来 自 数据 用 户 的 查询 Ta 后 ,按照 公式 (6-12) 
计算 To MBS I. 的 相关 性 得 分 。 
To * I, = {M 'Q' M7 Q") * (MI fi Mz fi) 
=Q f+" e f 
zb (6-12) 
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服务 器 选择 最 高 相关 性 得 分 集群 。 对 于 匹配 集群 中 包含 的 每 个 文件 , 云 服 务 器 从 索引 
I, 中 提取 相应 的 加 密 文 件 向 量 , 然 后 根据 文件 相似 性 返回 op 个 文件 。 

Dec (Eg, k): 在 接收 到 ko 个 加 密 文件 后 ,数据 用 户 使 用 密 钥 & 解密 密 文正。 以 获得 明 
X Xt. 

我 们 提出 的 基于 CAK-means 算法 的 SSE 方案 ,提高 了 检索 效率 以 及 检索 向 量 与 文档 
之 间 的 相关 性 ,对 密 文 排序 产生 了 有 益 影 响 ; 并 且 通 过 改进 文件 存放 位 置 (File Locality) 问 
题 , 极 大 地 提高 了 文件 读 写 效 率 。 

4. 基于 PUF 的 抵抗 内 存 泄露 攻击 的 多 关键 词 排序 密 文 检索 方案 

大 部 分 已 有 的 SSE 方案 都 是 基于 攻击 者 无 法 获取 数据 拥有 者 内 存 中 的 私密 数据 ,然而 
在 实际 应 用 中 ,各 种 侧 信道 攻击 方法 总 是 可 以 得 到 内 存 中 的 隐私 数据 。 针 对 目前 普遍 存在 
的 侧 信 道 攻击 ,若干 内 存 泄露 攻击 方案 ”中 被 提出 。 

针对 SSE 方案 中 可 能 存在 内 存 泄露 攻击 ,Dai 等 号 首次 提出 了 一 种 安全 的 抵抗 内 存 泄 
露 攻击 的 SSE 方案 (Memory Leakage-Resilient Searchable Symmetric Encryption, MLR- 
SSE) 。 该 方案 利用 物理 不 可 克隆 函数 (Physically Unclonable Functions, PUFs) 和 模糊 提 
取 器 (Fuzzy Extractor, FE) ,实现 抵抗 内 存 泄露 攻击 。 但 MLR-SSE 方案 仅 支持 简单 的 关键 
d. 

为 了 实现 一 个 抵抗 内 存 泄露 攻击 的 多 关键 词 排序 密 文 检 索 方 案 , 作 者 提出 了 一 个 基于 
PUF 的 方案 (Multi-keyword Ranked Search Scheme against Memory Leakage, MRSS- 
ML)U7, MRSS-ML 利用 PUFs* 中 和 FE 中 实现 抵抗 内 存 汇 露 攻击 的 更 高 安全 性 ,并 通 
过 构造 查找 表 和 相似 性 得 分 表 来 实现 多 关键 词 排序 检索 。 

首先 ,物理 不 可 克隆 函数 的 定义 如 下 。 

定义 6-1 物理 不 可 克隆 函数 (Physically Unclonable Functions. PUFs); 算法 P= 
(Sample, Eval) 是 一 个 含有 三 元 组 参数 (1,d ,6) 的 PUFs 族 ,P 应 满足 以 下 特性 : 

。 不 可 预测 性 : 对 于 一 个 激励 -响应 对 集合 e ,在 小 差错 范围 内 很 难 预 测 到 新 随机 激励 

:的 响应 ,其 中 B= (siori Kiq) E s'r EO, Bot BEN PUF 称 之 为 
满足 三 元 组 参数 (1,d ,6) 的 PUF. 
* 评估 : Eval 算法 以 安全 参数 1 RIRI idp 和 激励 * 为 输入 ,高 效 输出 响应 ~。 
。 有 界 噪声 : 对 于 同一 激励 s € {0,1 ,执行 两 次 算法 Eval CI* ,idp，,s) 后 ,两 次 响应 
(ri 和 rz) 的 汉 明 距离 di 应 满足 di <d ,其 中 4 是 一 个 噪声 界限 。 

。 不 可 克隆 : 给 定 一 个 PUF ,不 存在 有 效 技术 使 得 克隆 出 另外 的 PUF 满足 PUF' = 
PUF, 

* 单 向 性 : 对 于 给 定 PUF 和 响应 ~, 无 法 找到 其 对 应 满足 等 式 Eval(1*,idp,s) =r 
的 激励 ;。 

从 上 述 介绍 可 知 ,依赖 于 物理 架构 的 PUF 可 以 计算 物理 激励 并 输出 可 能 存在 噪声 的 响 
应 。 为 了 克服 PUF 噪声 缺陷 ,利用 模糊 提取 器 恢复 有 用 的 私密 信息 。 模 糊 提 取 器 "的 定 
义 见 定义 6-2。 
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定义 6-2 模糊 提取 器 (Fuzzy Extractor. FE): 一 个 满足 三 元 组 参数 (1,d ,6) 的 FE 是 由 
两 个 高 效 算法 (Gen,Rep) 构 成 。 
* Gen: 生成 算法 ,输入 一 个 2 位 的 串 z, 输 出 一 个 随机 串 st © {0,1)* 和 辅助 数据 
ad €{0,1}* 
* Rep: 重 现 算法 ,输入 一 个 1 位 的 噪声 串 w 和 辅助 数据 ad ,输出 一 个 6 位 随机 串 sz。 
模糊 提取 器 具有 以 下 两 个 特性 : 
* 正确 性 : 设 dis 为 两 个 变量 (w 和 ww') 的 汉 明 距离 , 重 现 算法 FE. Rep(w’.ad)=st 
成 立 当 且 仅 当 汉 明 距 离 满 足 dis 二 d。 
。 安全 性 : VEU TÉ FU o] MEO 的 均匀 分 布 , 品 声 串 w 从 U 中 选 出 ,即使 辅助 数据 ad 
被 暴露 ,FE 输出 st 仍 满足 U。 
为 了 实现 保护 隐私 的 搜索 结果 的 排序 , MRSS-ML 方案 还 利用 了 保 序 函数 加 密 相似 性 
得 分 。 这 里 定义 的 保 序 函数 是 对 文献 [22] 的 改进 ,其 形式 化 定义 如 下 。 
定义 6-3 RFF BHR (Order-Preserving Function, OPF); f(x) = S,<;<, a; * h(x, i) + 
r。 其 中 ,rt 是 函数 的 度 ,a; 是 一 个 正 系数 ,hz,i) 是 一 个 递归 计算 ,r 是 一 个 为 保护 函数 免 
3t vost BEL, (zx, 让) 进一步 定义 如 公式 (6-13) 所 示 。 
1 if 10; 
hG ,i)-—4x if i=l; (6-13) 
ce -*(GG,.i—D-cB*z) if i1 
其 中 g.e 是 两 个 常数 。 为 了 确保 排序 结果 ,随机 数 应 满足 x-€ (0.27 ) ,其 中 y 是 一 
个 整数 。OPF 具体 定义 和 证 明 参 见 文献 [22]。 
主要 构造 过 程 如 图 6-15 所 示 。 


Keygen 1) : 由 数据 拥有 者 执行 的 密 钥 生成 算法 。 输 入 参数 1 ,输出 密 钥 K 。 

COD 选取 满足 各 个 3 元 组 参数 的 PUF: (p+ login sd; +81) PUF; + (td; +82) PUF; fl (tsd; +8) PUF, o 

(2) 输出 密 钥 K = (PUF, ,PUF; ,PUF;)。 

BuildIndex(K ,D) : 由 数据 拥有 者 执行 的 索引 创建 算法 。 输 入 密 钥 K 和 文档 集 刀 ,输出 索引 TI 和 加 密 文 
档 集 C。 

(1) 初始 化 。 

© 遍历 文档 集 D 并 创建 包含 不 同 关键 词 的 词典 W. 

Q 创建 包含 W' 和 虚拟 关键 词 的 新 词典 W ,根据 关键 词 w; € W 构造 链表 D(w; ) 。 

(2) 创建 查找 表 T. 

© HF w; EW fj € [1n] TE ut; ; = PUF, (w; | | jA Crt; j sadt;;) *- FE;. Gen(ut;,;) e 

Q HF w, €W AD, € D HÙ us; ; =PUF, Gd (D,,,)) fll idc; ; = Enclus; j ,id;,;), 其 中 idc;, 是 
Duw,) 中 第 j^ 个 加 密 标识 符 。 

图 WF w EW fj € [1,1DCwi)|], 置 TLrti,] = idei;. XE vv MAF v-v Hm, 位 随机 串 被 分 配 
到 工 中 ,确保 T 中 无 空闲 位 , 且 将 余下 v-v 个 对 应 地 址 设 成 随机 值 。 


6-15 MRSS-ML 方案 构造 
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(3) 生成 辅助 数据 表 T. 

@ 对 于 iE[1,m] 和 jE[1,nj, 置 T'[wi] = adt;;. 

© XFF i€Un1.101] 和 jE[1,nj, 置 T'[w;] = adrt;, ,其 中 adrt;,; 是 与 adt;,; 长 度 相 同 的 随机 串 。 

(4) 构造 得 分 表 A。 

O HF D; ED 和 w;EW, 计 算 相 似 性 得 分 S; 二 Score(D; sw; ) ,计算 CSi,= f(Sj,;), 其 中 fC +) 是 一 
个 保 序 函 数 。 

© 对 于 DiED Mw; €W.# ALidc;;] = CSj.:。 

(5) 生成 加 密 文 档 C， 。 

对 于 D; € D, HY uc; — PUF; Gd (D; )) Gre; adc; ) -FE;. Gen(uc; )l C; — Enc( Gre; ,Di)，adci)。 

(6) 输出 索引 工 王 0T,A) 和 加 密 文档 集 C = (Ci. C; esu. 

TrapdoorGen(K Q): 由 数据 拥有 者 执行 的 陷 门 生成 算法 。 输 入 密 钥 K 和 查询 关键 词 集 Q ,输出 陷 门 T。 。 

A) 对 于 w, EQ 和 jE[1,n], 计 算 wt;, =PUF, Cw; | lj). 和 ti, =FE,. Rep(ut;, ,adt,,;) ,其 中 adt;, 是 
存储 在 T' 中 的 辅助 数据 。 

(2) 输出 陷 门 T, — (TL; KiKa) ,其 中 To 一 (rtia ortis Tin) o 

Search(T,T,) : 由 云 服务 器 执行 的 检索 算法 。 输 入 索引 I AKT T. ,输出 加 密 文档 标识 符 集 IDC, 。 

COD 根据 陷 门 T, ERR T: 对 于 1<i<g 和 jE[1,n], 若 T[rti,] 关上, 则 将 idciv 插 和 人 到 包含 查 
询 关 键 词 的 加 密 标 识 符 集 IDC 中 。 

(2) 根据 IDC 遍历 得 分 表 A: 对 于 ideju € IDC, ALide;,,] 关上 , 则 计算 VS 一 3i<i<vCSi，。 

(3) 输出 前 个 最 相关 的 包含 查询 关键 词 的 加 密 标 识 符 集 IDC, = (id (D,) ejm). 

Decrypt(K ID): 由 用 户 执行 的 解密 算法 。 输 入 密 钥 K 和 加 密 文档 标识 符 集 IDC. ,输出 相关 文档 
R D.. 

O) 云 服 务 器 根据 IDC. 返回 包含 查询 关键 词 的 加 密 文档 集 C。 。 

(2) 对 于 每 个 文档 D; ,j E[1,k], 用 户 计算 uc; =PUF; (id (D;))M rc; =FE;. Repluc; sadc;) o 

(3) 计算 Duj = Dec(re; ,Cw),j EL[1,k]。 

(4) 输出 前 上 PAE ED, = (Dui Dust Du. 


图 6-15 ( 续 ) 


在 MRSS-ML 方案 中 ,文档 集 DD 与 加 密 索 引 工 相关 联 。 加 密 索 引 工 由 两 个 表格 构成 ， 
分 别 是 查找 表 T 和 相似 性 得 分 表 A。 查 找 表 T 创建 过 程 如 下 : 创建 之 前 , 先 提 取出 包含 若 
干 虚拟 关键 词 的 关键 词 词典 W 并 对 每 一 个 关键 词 w; € W 构造 链表 D(w;)。 首 先 , 对 于 
j €[1.5 ] fl v; € Wit v = BID(wi)|ww = max ( ID; 1 和 一 neu PID; | 表示 从 文 
Pi D, 提取 出 的 关键 词 个 数 。 对 于 w EW 和 jE[1,nj, 利 用 一 个 物理 不 可 克隆 函数 PUF, 
随机 化 关键 词 w;。 随 后 ,利用 模糊 提取 器 生成 算法 FE,. Gen 生成 两 组 数据 。 一 组 数据 
rt, 作为 随机 化 后 的 查找 表 工 中 各 元 素 地 址 密 钥 , 另 一 组 数据 adi;,; 是 辅助 数据 。 对 于 
iE[1,m] 和 jEL1,n], 辅 助 数据 adti; 存储 在 一 个 辅助 数据 表 T' 中 ,T' 存 储 于 数据 拥有 者 
的 非 易 失 性 内 存 中 。 设 Q 表示 从 文档 集 D. 提取 得 到 的 所 有 关键 词 集合 , 则 |Q | 表示 从 文档 
E D 提取 到 的 所 有 关键 词 个 数 。 对 于 i€E[m 十 1,1Q21] 和 jE[1,nj, 随 机 生成 的 辅助 数据 
串 adrt;,; 被 插入 到 表 T' 中 。 在 陷 门 生成 过 程 中 ,辅助 数据 adis; 用 于 恢复 密 钥 iv 。 再 利 
用 一 个 物理 不 可 克隆 函数 PUF, 来 计算 包含 关键 词 o; 文档 标识 符 的 随机 串 us;,; 。 随 后 利 
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用 以 wsiv 为 密 钥 的 对 称 加 密 机 制 ( 如 AES) 加 密 文档 标识 符 。 将 包含 关键 词 w, 的 加 密 标 
识 符 插 入 到 了 中 随机 地 址 的 对 应 位 置 中 ,人 了 中 其 余 位 置 插入 随机 串 。 

相似 性 得 分 表 A 创建 过 程 如 下 : 利用 TF-IDF 方法 计算 文档 D, 与 关键 词 w; 之 间 的 相 
似 性 得 分 。 相 似 性 得 分 利用 定义 的 保 序 函 数 进行 加 密 。 相 似 性 得 分 总 和 作为 排序 查询 结果 
的 相关 性 判断 标准 。 得 分 表 A 地 址 由 加 密 文档 标识 符 进行 随机 化 ,加 密 相似 性 得 分 插入 到 
对 应 得 分 表 A 的 相应 位 置 中 。 再 利用 一 个 物理 不 可 克隆 函数 PUF, 生成 文档 Di 标识 符 的 
随机 串 。 调 用 模糊 提取 器 生成 算法 FE,. Gen 生成 两 组 数据 ,一 组 数据 rc;,; 作为 加 密 文 档 
D; 的 密 钥 , 另 一 组 数据 adc; 作为 恢复 密 钥 rc;,; 的 辅助 数据 。 

数据 拥有 者 将 加 密 索 引 工 和 加 密 文 档 集 C 存储 到 云 服务 器 上 。 当 用 户 被 授权 检索 包 
AKEE w, Cw; € Q.Q 是 查询 关键 词 集 ) 的 文档 时 ,数据 拥有 者 调用 函数 PUF， 和 模糊 提 
取 器 重 现 算法 FE. Rep 计算 陷 门 加 密 密 钥 。 云 服务 器 收 到 陷 门 后 立即 遍历 查找 表 工 ,得 到 
候选 文档 标识 符 集 IDC。 随 后 , 云 服务 器 遍历 得 分 表 A 并 计算 加 密 得 分 总 和 。 最 后 ,数据 
拥有 者 调用 函数 PUF, 和 模糊 提取 器 重 现 算法 FE:. Rep 恢复 用 于 解密 前 & 个 最 相关 的 密 
文 文档 的 密 钥 。 

MRSS-ML 方案 实现 了 一 种 安全 的 多 关键 词 排序 密 文 检索 方案 ,不 仅 实现 了 高 效 的 多 
关键 词 排序 检索 ,而 且 增强 了 多 关键 词 排 序 检索 的 安全 性 。 


6.4 未 来 发 展 方向 


密 文 云 存 储 信息 检索 自 云 存储 服务 兴起 以 来 ,取得 了 大 量 的 研究 成 果 。 总 结 已 有 的 这 
些 方案 , 密 文 云 存储 信息 检索 的 未 来 发 展 方向 包括 以 下 几 个 方面 。 

1. 多 媒体 密 文 检索 与 隐私 权 保 护 

随 着 互联 网 .图 像 处 理 ` 云 计算 与 云 存 储 一 系列 技术 的 发 展 , 多 媒体 信息 以 爆炸 式 速度 
增长 ,特别 是 以 视频 与 图 像 为 代表 的 多 媒体 信息 ,其 增长 速度 更 是 惊人 。 而 且 图 像 与 视频 信 
息 中 包含 大 量 的 敏感 信息 ,一 旦 上 传 到 互联 网 上 ,很 难保 证 数据 的 彻底 删除 。 

为 了 保护 隐私 ,在 将 这 类 数据 上 传 到 云 存储 服务 器 之 前 ,应 该 将 数据 加 密 , 这 样 就 算 非 
法 用 户 取 得 数据 ,没有 密 钥 也 无 法 得 到 实际 图 像 信 息 。 但 是 数据 加 密 后 ,如 何在 海量 的 图 像 
密 文 数据 中 查询 需要 的 图 像 ,成 为 一 个 很 棘手 的 问题 。 目 前 关于 文本 文件 的 密 文 检索 方案 
非常 多 ,但 关于 多 媒体 密 文 数据 检索 的 方案 还 比较 缺乏 ,特别 是 视频 数据 的 加 密 与 检索 方案 
还 是 空白 。 

另外 , 随 着 公共 社交 平台 的 高 速 发 展 ,图 像 数 据 的 隐私 保护 问题 日 益 突 出 。 类 似 微 信 朋 
友 圈 这 样 的 私密 社交 平台 其 实 是 少数 , 像 Facebook, Twitter, Instagram 以 及 国内 的 微 博 等 
社交 平台 除非 用 户 自主 设置 ,否则 都 默认 向 所 有 人 公开 信息 ,包括 用 户 上 传 的 各 种 图 像 数 
据 。 本 来 社交 平台 就 是 因为 开放 的 特性 ,受到 广大 网 友 的 喜爱 ,一 旦 将 所 有 的 内 容 设 置 成 只 
有 双向 关注 才能 看 到 ,就 限制 了 社交 平台 上 一 些 需要 广播 的 应 用 。 因 此 , 像 公共 社交 平台 
类 应 用 ,其 隐私 保护 技术 ,可 能 更 多 地 需要 通过 管理 手段 来 实现 ,比如 关于 图 像 隐私 权 的 立 
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法 等 。 

2. 特殊 应 用 场景 中 的 密 文 信息 检索 

密 文 信息 检索 从 早期 的 非 共享 模型 ,发 展 到 共享 模型 ,从 一 对 多 发 展 到 多 对 多 , 便 是 特 
殊 应 用 场景 发 展 的 需要 。 

目前 ,在 电子 健康 医疗 领域 , 密 文 信息 检索 就 有 特殊 的 需求 。 因 为 电子 健康 医疗 记录 ， 
包含 着 很 多 非常 敏感 的 信息 。 这 些 记 录 同 时 对 很 多 医院 和 研究 机 构 ,甚至 包括 保险 公司 ,都 
有 着 非常 重要 的 价值 。 怎 样 保护 这 些 敏 感 信息 ,同时 也 对 其 他 用 户 产生 价值 ,是 一 个 有 着 重 
大 意义 的 研究 课题 。 

在 财政 数据 审计 领域 ,怎样 利用 企业 的 财务 信息 得 到 有 价值 的 供需 关系 ,同时 不 泄露 企 
业 的 一 些 商 业 机 密 , 也 是 一 项 很 有 意义 的 研究 内 容 。 

3. 安全 灵活、 高 效 的 密 文 信息 检索 

安全 性 与 效率 总 是 一 对 矛盾 ,高 安全 必须 带 来 高 开销 ,怎样 平衡 安全 性 与 效率 需要 极 大 
的 智慧 。 同 时 ,方便 灵活 的 搜索 语句 不 仅 能 够 让 用 户 可 以 更 加 精确 地 定位 到 所 需要 的 数据 ， 
同时 也 可 以 让 用 户 更 加 灵活 地 表述 搜索 需求 。 密 文 搜索 技术 从 早期 的 支持 单 关键 词 检索 ， 
发 展 到 支持 多 关键 词 ,支持 数据 更 新 ,支持 结果 验证 等 。 如 何在 支持 丰富 、 灵 活 的 搜索 功能 
的 同时 ,找到 合适 的 安全 性 假设 ,来 证 明 其 安全 性 ,同时 又 实现 高 效率 的 搜索 ,是 一 个 长 期 的 
研究 课题 。 


6.5 本章 小 结 


本 章 从 密 文 搜索 技术 分 类 和 应 用 模型 讲 起 ,介绍 了 密 文 搜索 的 发 展 历程 以 及 未 来 发 展 
趋势 ; 然后 详细 介绍 了 云 存 储 环境 下 的 密 文 搜索 的 需求 和 最 新 的 密 文 搜索 方案 ,从 中 了 解 
到 最 新 的 密 文 搜索 技术 都 是 别出心裁 地 找到 最 新 的 安全 技术 ,应 用 到 云 存储 密 文 搜索 方案 
中 ; 最 后 总 结 了 密 文 搜索 技术 的 未 来 发 展 方向 。 
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云 存储 服务 的 数据 完整 性 审计 


引用 美国 前 总 统 罗 纳 德 。 里 根 的 一 名 名言“ 要 我 相信 你 ,请 你 先 证 明 给 我 看 (Trust 
but verify)”. 

云 存储 具有 众多 优点 ,但 是 因为 用 户 对 其 安全 性 、 可 靠 性 及 可 用 性 等 问题 有 所 怀疑 , 导 
致 目前 云 存 储 无 法 得 到 广泛 的 应 用 。 特 别 地 ,在 微软 弄 丢 了 Sidekick 用 户 的 数据 ， 
SwissDisk #9 <4 £2 28 wh HL Jj Ht SC IE. Amazon S3 宕 机 频繁 ,曾经 一 次 持续 了 8 个 小 
时 …… 哪 个 用 户 还 敢 将 数据 托付 给 云 存 储 服务 呢 ? 即便 是 一 些 业界 著名 的 品牌 服务 商 , 也 
没有 担保 其 云 存储 服务 的 安全 性 与 可 靠 性 。 

所 以 在 云 存储 中 ,让 用 户 可 以 对 云 存储 服务 的 数据 完整 性 进行 审计 ,验证 服务 提供 者 正 
确 地 持 有 其 数据 , 且 如 果 检 测 发 生 错误 可 以 恢复 其 数据 ,是 一 件 很 有 意义 的 研究 工作 。 


7.1 数据 完整 性 审计 概述 


Google 每 月 有 超过 400PB 的 数据 存储 到 其 分 布 式 文件 系统 (Google File System, 
GFS) rU? , FaceBook 每 天 有 超过 500TB 数据 存储 到 Amazon 的 云 存储 服务 器 上 中 。EMC 
公司 指出 ,64% 的 受 调查 企业 在 过 去 12 个 月 中 经 历 过 数据 丢失 或 宕 机 事故 。 如 何 保障 云 存 
储 服务 器 上 的 这 些 数据 的 完整 性 与 可 用 性 是 至 关 重 要 的 。 

云 存储 服务 中 数据 完整 性 审计 的 任务 是 验证 不 可 信 的 存储 服务 器 是 否 正确 地 持 有 ( 保 
存 ) 数 据 ,避免 存储 服务 提供 者 删除 、 算 改 数据 ,并 确保 存储 数据 的 可 恢复 性 。 本 节 首 先 分析 
在 云 存储 服务 环境 下 存在 数据 完整 性 与 可 用 性 问题 的 起 源 , 然 后 介绍 当前 的 完整 性 审计 方 
案 的 分 类 ,以 及 云 存 储 环境 下 数据 完整 性 审计 的 目标 。 


7.1.1 问题 的 起 源 


如 上 文 所 述 , 用 户 将 数据 存储 到 云 服务 器 后 ,失去 了 对 数据 的 绝对 控制 权 。 因 为 云 服务 
器 不 完全 可 信 , 导 致 用 户 数 据 的 可 用 性 和 安全 性 受到 威胁 。 另 外 , 当 采 用 云 存储 后 ,用 户 将 
数据 上 传 到 云 服 务 器 ,而 没有 在 本 地 保存 任何 数据 副本 ,其 数据 的 完整 性 与 可 用 性 对 用 户 至 
关 重 要 。 因 此 , 才 存 在 云 存储 环境 下 数据 完整 性 审计 的 问题 。 综 合 起 来 ,主要 源 自 以 下 几 方 
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面 的 原因 。 

CD 天 灾 人 祸 等 因素 ,如 发 生地 震 、 洪 水 .火灾 与 其 他 事故 等 造成 的 云 存 储 服务 中 心 发 
生物 理 损坏 ,此 类 数据 损坏 是 不 可 恢复 的 。 因 此 , 云 存 储 服务 器 的 选 址 及 对 应 的 灾害 防备 措 
施 极其 重要 。 

(2) 计算 机 系统 不 能 实现 100% 的 可 靠 性 ,会 存在 硬件 损坏 、 软 件 失 效 、 系 统 漏洞 .操作 
失误 等 系统 或 人 为 问题 ,还 有 比特 衰减 (Bit Rot) 、 磁 盘 控 制 器 错误 、 磁 带 失效 .重复 数据 删 
除 中 的 元 数据 错误 ,以 及 巾 软件 故障 导致 的 元 数据 错误 等 情况 都 可 能 发 生 在 云 存 储 系 统 中 ， 
从 而 造成 对 用 户 数据 完整 性 的 破坏 。 

G) 软件 病毒 与 网 络 攻 击 等 外 在 恶意 入 侵 ,比如 存储 在 云 中 的 数据 可 能 遭 到 其 他 用 户 
的 恶意 损坏 。 文 献 [3] 以 Amazon EC2 存储 服务 为 例 , 介 绍 了 恶意 用 户 如 何 对 云 中 同一 宿 
主机 上 的 其 他 虚拟 机 发 起 攻击 ,并 损坏 其 他 用 户 的 数据 。 

(4) 为 了 节约 成 本 , 云 服务 提供 者 (Cloud Service Provider,CSP) 可 能 并 没有 遵守 服务 
等 级 协议 (Service Level Agreement, SLA) ,而 将 用 户 很 少 访问 的 数据 转移 到 非 在 线 存 储 设 
备 上 ,甚至 将 其 删除 以 节省 存储 开销 ,导致 用 户 不 能 实时 访问 存储 到 云 中 的 数据 或 所 存储 数 
EK, 

(5) 云 服务 提供 者 可 能 隐瞒 由 于 管理 不 当 或 设备 故障 造成 的 数据 损坏 或 丢失 ,以 维护 
自身 的 声誉 和 逃避 赔偿 。 

数据 完整 性 审计 机 制 能 及 时 地 发 现存 储 在 云 服务 器 中 数据 的 损坏 ,从 而 尽早 地 采取 挽 
救 措施 ; 同时 它 能 让 用 户 自 己 检测 数据 的 完整 性 ,使 其 比较 放心 地 使 用 云 存储 服务 。 因 此 ， 
对 数据 完整 性 进行 审计 是 非常 必要 的 。 


7.1.2 完整 性 审计 方案 分 类 


云 存 储 系统 中 完整 性 审计 方案 的 架构 如 图 7-1 所 示 。 用 户 通 过 各 类 轻 量 级 设备 ,如 手 
机 ,平板 电脑 、 笔 记 本 电脑 或 PC 等 ,将 数据 上 传 到 云 服务 器 上 ,但 对 其 数据 的 完整 性 和 可 用 
性 比较 担心 ,因此 经 常 去 检测 一 下 “我 的 数据 还 在 吗 ? 是 完整 的 吗 ??。 只 有 当 用 户 得 到 肯定 
的 答复 时 , 才 会 比较 放心 这 些 数据 。 

根据 完整 性 方案 的 审计 者 (Auditor) 是 数据 拥有 者 还 是 第 三 方 审 计 者 (Third Party 
Auditor. TPA) ,可 分 为 数据 拥有 者 直接 对 云端 个 人 数据 进行 完整 性 检查 方案 !] 和 委托 给 
可 信 第 三 方 进行 云 端 数据 的 完整 性 检查 方案 [5 ,要 求 数据 不 会 泄露 给 第 三 方 ( 各 种 隐私 保 
PR., AA 7-1 所 示 就 是 一 种 用 户 直接 与 云 存储 服务 器 交互 ,得 到 数据 完整 性 审计 
结果 。 

在 两 方 审计 系统 模型 中 ,因为 用 户 的 设备 资源 受 限 ,可 能 在 某 些 应 用 场景 存在 稳定 性 和 
效率 的 问题 ,因此 引入 可 信 第 三 方 的 审计 架构 ,如 图 7-2 所 示 。 第 三 方 拥 有 用 户 所 没有 的 审 
计 经 验 和 能 力 ,可 以 代替 用 户 对 云 中 存储 的 数据 进行 审计 ,减轻 用 户 在 验证 阶段 的 计算 负 
担 。 将 数据 持 有 性 验证 工作 委派 给 一 个 可 信 第 三 方 的 优点 在 于 : 发 生 纠 纷 时 ,比如 服务 提 
供 者 认为 存放 了 数据 ,但 是 可 能 是 放 在 次 级 存储 器 或 者 离线 存放 ,而 使 用 者 要 求 提 供 的 是 在 
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图 7-1 云 存储 系统 中 完整 性 审计 方案 的 架构 


线 访问 , 且 认为 性 能 没有 达到 声称 的 要 求 ,都 可 以 由 第 三 方 进行 仲裁 。 可 信 第 三 方 只 需要 掌 


握 少 量 的 公开 信息 即 可 代替 用 户 进行 数据 完整 性 检测 ,还 能 对 用 户 和 云端 的 行为 进行 记录 
和 监督 ,帮助 两 方 处 理 数据 纠纷 问题 ,减轻 用 户 在 数据 验证 方面 的 负担 。 


C3 
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T2 云 存储 系统 中 第 三 方 完整 性 审计 架构 
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在 第 三 方 完整 性 审计 方案 中 .用 户 将 自己 的 数据 存储 在 云 服务 提供 商 的 服务 器 上 ,本 地 
不 再 保存 原 有 数据 ,而 只 保存 进行 数据 完整 性 检测 所 必需 的 元 数据 信息 。 当 用 户 上 传 的 数 
据 通 过 了 云 服务 提供 商 的 合法 性 和 有 效 性 审核 后 ,被 存储 在 云 服务 提供 商 的 云 服务 器 中 。 
当 用 户 需要 进行 数据 完整 性 检测 时 , 则 向 可 信 第 三 方 发 送 验证 请 求 。 可 信 第 三 方 根据 用 户 
的 情况 ,向 云 存储 服务 器 发 起 挑战 应 答 协 议 (Challenge Response Protocol, CRP) , 云 服 务 器 
根据 挑战 请 求 计算 结果 并 回复 相应 的 数据 完整 存储 证 明 。 最 后 可 信 第 三 方 根据 云 服 务 器 回 
复 的 数据 完整 证 明 计算 最 终结 果 、 验 证 数据 完整 性 并 将 检测 结果 通过 报告 的 形式 发 送 给 
用 户 。 

使 用 第 三 方 审计 时 要 求 提供 隐私 保护 技术 中 ,就 是 要 求 不 向 第 三 方 泄露 数据 。 隐 私 
保护 实现 方法 如 下 : 

a) 先 将 数据 加 密 后 再 计算 相关 验证 信息 ,验证 的 时 候 使 用 的 是 加 密 的 数据 ,因此 不 会 
泄露 数据 。 

(2) 因为 使 用 抽样 检查 ,所 以 响应 的 是 不 连续 数据 ,也 不 返回 原始 数据 ,而 是 对 原始 数 
据 计 算 验 证 信息 。 

(3) 使 用 常用 的 隐私 保护 方法 ,在 数据 中 穿插 一 些 随机 数据 。 这 种 方法 会 增加 额外 的 
开销 。 

云 存储 服务 中 数据 完整 性 审计 方案 根据 是 否 对 数据 文件 进行 了 容错 预 处 理 可 以 分 为 可 
证 明 数 据 持 有 (Provable Data Possession, PDP) 方 案 和 可 恢复 证 明 (Proof Of 
Retrievability, POR) 77%. PDP 和 POR 方案 的 主要 区 别 是 : PDP 方案 可 检测 到 存储 数据 
是 否 完 整 ,但 无 法 确保 数据 可 恢复 性 ; POR 方案 进行 了 容错 预 处 理 , 所 以 可 以 保证 存储 数 
据 的 可 恢复 性 。 

根据 方案 采用 的 核心 技术 , 现 有 的 可 证 明 数 据 持 有 PDP 方案 包括 基于 消息 认证 码 
(Message Authentication Code, MAC) fif] PDP FRU? SEF RSA 签名 的 PDP JRE, 
基于 Boneh-Lynn-Shacham (BLS) % f] PDP 7j ROI 、 基 于 聚合 签名 的 PDP 7; 
geese] 基于 Merkle Hash Tree (MHT) 的 PDP 7; °°), 3E F Dynamic Hash Table 
(DHT) AY PDP 2; RO 4$; 可 恢复 证 明 POR 方案 包括 基于 哨兵 的 POR 方案 、 紧 缩 的 POR 
方案 .基于 编码 的 POR 方案 等 。 

根据 方案 的 功能 ,PDP 方案 和 POR 方案 可 以 分 为 支持 动态 更 新 的 ”支持 多 副本 
fg Uo 支持 隐私 保护 的 中 支持 多 用 户 批量 验证 0 站 、 支 持 数据 共享 的 4 的 及 支 
持 公开 验证 等 方案 。 关 于 完整 性 审计 方案 分 类 如 图 7-3 所 示 。 

支持 动态 更 新 的 方案 允许 用 户 对 存储 之 后 的 数据 块 进 行 插入 、 修 改 和 删除 操作 ; 支持 
公开 验证 的 方案 允许 任何 具有 公 钥 的 第 三 方 充 当 审计 者 ,帮助 数据 拥有 者 完成 对 数据 完整 
性 的 验证 ; 支持 隐私 保护 的 方案 使 第 三 方 审计 者 和 云 服务 器 不 会 获取 任何 关于 用 户 身 份 的 
信息 ; 支持 多 副本 的 方案 采用 分 布 式 存储 的 方式 将 数据 副本 存储 到 不 同 的 云 服 务 器 ,避免 
单个 服务 器 故障 造成 数据 的 丢失 。 
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7-3 ”完整 性 审计 方案 分 类 


7.1.3 完整 性 审计 目标 


云 存储 服务 中 数据 完整 性 审计 的 任务 是 验证 不 可 信 的 存储 服务 器 是 否 正确 地 持 有 ( 保 
存 ) 数 据 ,人 避免 存储 服务 提供 者 删除 \、 自 改 数据 ,并 确保 存储 数据 的 可 恢复 性 。 相 应 地 ,数据 
完整 性 审计 方案 的 目标 如 下 。 

CD 如 果 存 储 在 云 服务 器 上 的 数据 没有 被 损坏 或 者 算 改 , 即 数 据 是 完整 无 误 且 可 用 的 ， 
则 云 服 务 器 可 以 通过 挑战 应 答 协 议 ,通过 审计 者 的 检测 。 

(2) 如 果 存 储 在 云 服 务 器 上 的 数据 发 生 损坏 或 者 被 攻击 者 算 改 , 则 云 服 务 器 不 能 通过 
挑战 应 答 协 议 , 审 计 者 将 通知 用 户 其 数据 被 破坏 。 

(3) 保证 用 户 在 其 数据 生命 周期 内 ,可 以 随时 随地 并 执行 任意 次 数 的 挑战 应 答 协议 。 

另外 ,在 云 存 储 环境 下 ,将 海量 的 数据 下 载 到 本 地 进行 完整 性 审计 的 方法 根本 不 实用 ， 
因此 实现 无 须 读 取 数据 的 审计 是 云 存 储 中 数据 完整 性 审计 方案 的 基本 要 求 *9 。 

通常 ,考核 数据 完整 性 审计 方案 优 劣 的 指标 有 下 面 几 个 。 

CD 计算 复杂 度 , 包 括 用 户 预 处 理 文件 、 服 务 器 生成 证 据 及 用 户 验 证 等 开销 。 

(2) 通信 复杂 性 , 指 用 户 与 服务 器 之 间 的 数据 传输 量 。 

(3) 存储 需求 , 指 用 户 与 服务 器 需要 的 额外 的 存储 空间 。 

(4) 允许 的 数据 更 新 ,包括 数据 修改 、 插 入 、 添 加 、 删 除 ; 如 果 不 支持 更 新 ,就 只 能 用 于 
静态 数据 ,一 旦 存储 就 不 再 改变 ,比如 归档 存储 。 

(5) 允许 验证 的 次 数 ,是 否 支 持 公开 验证 。 

(6) 检测 到 错误 后 是 否 可 恢复 ,比如 是 否 使 用 纠 删 码 / 纠 错 码 等 。 
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(7) 因为 基于 抽样 原理 ,挑战 应 答 协 议 的 错误 识别 率 要 足够 高 。 要 求 每 次 抽样 的 数据 
块 数 要 足够 多 ,以 达到 需要 的 错误 识别 率 。 

(8) 安全 性 证 明 ,确保 方案 的 安全 性 。 

(9) 是 否 需 要 访问 数据 块 以 及 需要 访问 多 少数 据 块 等 。 

在 挑战 应 答 协 议 中 ,错误 识别 率 与 抽样 数据 块 数量 密切 相关 。 要 实现 不 同 的 错误 识别 
率 , 需 要 的 抽样 块 数 不 同 。 假 设 数据 块 总 数 为 ,抽样 的 块 数 为 c ,用 表示 被 破坏 的 文件 块 
数 ,X 表示 抽样 的 块 中 检测 到 的 被 破坏 的 块 数 ,Px 表示 至 少 有 一 个 被 破坏 的 块 被 检测 到 的 
概率 , 则 
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服务 器 检测 到 错误 的 概率 与 抽样 块 数 的 关系 如 图 7-4 所 示 , 如 果 错 误 率 r/n — 126. 
户 只 需要 抽样 460 个 数据 块 就 可 以 达到 99% 的 错误 识别 率 ,只 需要 抽样 300 个 数据 块 就 可 
以 达到 95% 的 错误 识别 率 。 
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图 7-4 服务 器 检测 到 错误 的 概率 与 抽样 块 数 的 关系 
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7.2 云 存储 中 数据 完整 性 审计 发 展现 状 


根据 上 小 节 对 云 存储 服务 中 的 数据 完整 性 审计 方案 的 分 类 和 目标 ,下 面 将 详细 介绍 数 
据 完整 性 审计 方案 的 发 展现 状 和 趋势 。 首 先 介绍 当前 的 完整 性 审计 方案 的 通用 框架 ; 然后 
在 此 基础 上 ,对 当前 的 研究 成 果 进 行 总 结 分 析 。 


7.2.1 完整 性 审计 框架 


云 存储 服务 中 的 数据 完整 性 审计 方案 主要 包括 4 个 阶段 , 即 初始 化 .挑战 .响应 与 验证 。 
通常 包括 以 下 几 个 算法 。 

(1) Setup: 在 初始 化 阶段 ,数据 拥有 者 生成 方案 需要 的 一 些 密 钥 ,该 算法 输入 一 个 安全 
参数 ,输出 相应 的 密 钥 信息 。 

(2) TagGen: 在 初始 化 阶段 ,数据 拥有 者 对 数据 文件 进行 分 块 、 编 码 等 预 处 理 操作 ,该 
算法 输入 数据 分 块 和 保密 密 钥 ,输出 为 每 个 数据 块 生成 的 验证 标签 集 ,以 利于 后 面 进行 数据 
的 完整 性 审计 。 将 数据 文件 和 标签 集 存储 到 云 服务 器 上 ,本 地 只 保存 少量 的 密 钥 信息 生成 
标签 集 , 作 为 认证 的 元 数据 。 

(3) Challenge: 在 挑战 阶段 ,基于 抽样 机 制 , 从 分 块 索 引 集合 中 随机 选择 c 个 块 索引 ， 
并 且 为 每 个 索引 选取 一 个 随机 数 ,发 送 给 云 服 务 器 。 

(4) Response: 在 响应 阶段 , 云 服务 器 收 到 挑战 请 求 后 ,以 公开 密 钥 数据 文件 .数据 块 
标签 集合 以 及 挑战 请 求 信 息 为 输入 ,输出 对 应 挑战 块 的 完整 性 验证 信息 。 

(5) Verify: 在 验证 阶段 ,审计 者 将 接收 到 的 完整 性 验证 信息 进行 运算 ,输入 为 公开 密 
钥 、 保 密 密 钥 .挑战 信息 以 及 验证 信息 ,输出 为 目标 文件 检测 完整 性 的 结果 。 

当 完 整 性 审计 方案 支持 数据 动态 更 新 时 ,还 包括 以 下 两 个 更 新 算法 。 

(1) Update: 由 云 服务 器 执行 ,将 需要 更 新 的 文件 、 相 应 的 标签 集 及 数据 请 求 作为 输 
入 ,输出 更 新 文件 和 更 新 标签 集 及 相应 的 更 新 证 据 。 

(2) UpdateVerify: 由 审计 者 执行 ,验证 该 更 新 操作 是 否 正确 执行 。 

数据 完整 性 审计 方案 基本 流程 如 图 7-5 所 示 。 其 中 的 审计 者 可 以 是 数据 拥有 者 ,也 可 

用 户 云 服务 器 审计 者 
原始 文件 
初始 化 挑战 
标签 生成 EXE, . 
处 理 后 文件 挑战 请 求 


响应 挑战 数据 
响应 数据 


凭证 数据 | EM > 上 上 验证 


验证 结果 
图 7-5 数据 完整 性 审计 方案 基本 流程 
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以 是 可 信任 的 第 三 方 。 数 据 完整 性 审计 方案 的 主要 思想 是 : 将 上 传 的 文件 分 成 若干 个 数据 
块 , 并 对 每 个 数据 块 计算 一 个 验证 标签 。 在 不 需要 下 载 整个 文件 的 情况 下 ,利用 同 态 标 签 、 
MAC 签名 和 聚合 签名 等 各 种 技术 使 审计 者 可 以 验证 云 服务 器 上 用 户 数据 的 完整 性 。 


7.2.2 云 存储 环境 下 的 需求 


云 存储 环境 下 数据 完整 性 审计 方案 主要 是 采用 在 数据 预 处 理 阶段 生成 的 审计 元 数据 信 
息 与 云 服务 器 返回 的 响应 凭证 进行 对 比 , 以 确定 服务 器 端 数据 的 完整 性 。 不 同 的 实现 机 制 
在 计算 复杂 度 .通信 开销 和 存储 量 方面 的 开销 均 有 不 同 。 

相 比 于 传统 分 布 式 网 络 如 P2P 网 络 、 网 格 计 算 等 , 云 存储 环境 下 数据 完整 性 审计 方案 
具有 以 下 几 方 面 的 需求 。 

(1) 因为 云 存储 环境 下 海量 的 数据 ,所 以 数据 完整 性 审计 方案 不 能 要 求 用 户 从 云 服务 
器 读 取 数据 后 再 进行 审查 ,而 应 该 只 需要 用 户 保存 少量 的 元 数据 信息 甚至 不 需要 保存 任何 
信息 ,就 可 以 对 云 服务 器 端的 数据 完整 性 进行 检测 。 

(2) 传统 的 数据 完整 性 验证 机 制 为 每 一 个 数据 块 生成 不 可 伪造 的 数据 签名 标签 集合 ， 
当 数 据 进行 更 新 时 需要 重新 生成 签名 标签 ,使 得 计算 代价 和 通信 开销 较 大 ,所 以 需要 设计 更 
轻便 、 高 效 的 动态 更 新 方案 。 

(3) 在 云 存储 环境 下 ,为 了 方便 用 户 在 轻 量 级 的 设备 上 访问 数据 ,数据 的 完整 性 审计 需 
要 一 个 可 信 第 三 方 可 以 托管 ,以 减少 用 户 端 的 开销 。 

(4) 无 论 使 用 哪 种 审计 方案 ,用 户 数据 及 其 身份 的 隐私 性 都 应 该 得 到 保护 。 

(5) 在 不 同 的 云 存储 环境 下 ,一 方面 要 提高 完整 性 审计 方案 的 效率 , 另 一 方面 其 功能 性 
及 扩展 性 也 要 考虑 。 

另外 ,数据 的 备份 需求 ,比如 使 用 多 副本 的 方式 存放 多 份 数据 ,也 可 以 验证 服务 器 对 多 
份 复 本 数据 的 完整 性 审计 ; 当 文 件 的 数据 块 索引 与 分 块 在 数据 块 集合 中 的 位 置 无 关 时 , 比 
较 容易 实现 数据 的 动态 更 新 操作 ; 采用 加 密 算 法 对 数据 进行 加 密 , 可 以 实现 支持 隐私 保护 
的 数据 完整 性 检测 ; 采用 纠 错 或 纠 删 编码 对 数据 进行 编码 ,再 结合 完整 性 审计 技术 ,可 实现 
可 恢复 证 明 POR 方案 。 下 面 将 对 现 有 的 数据 完整 性 审计 方案 是 否 满足 以 上 需求 进行 
分 析 。 


7.2.3 发展 现状 与 趋势 


本 小 节 根 据 以 上 分 类 评价 指标 和 需求 详细 介绍 PDP 方案 和 POR 方案 及 其 相关 工作 
在 国内 外 的 研究 现状 ,并 将 相关 工作 进行 对 比分 析 ,指出 发 展 趋势 。 

1. PDP 方案 

Deswarte 等 "中 最 早 提出 远程 数据 的 完整 性 检查 ,使 用 基于 RSA 的 Hash 函数 对 整个 
文件 计算 Hash 值 。 其 原理 为 : S N 为 RSA 模 数 ,FF 为 代表 文件 的 大 整数 ,g € Zw ,检查 者 
IET a—g' mod N; 在 挑战 中 ,检查 者 生成 任意 元 素 ~ 并 发 送 g” 到 服务 器 ,服务 器 返回 
s=(g" mod N ,检查 者 计算 a" ,并 验证 等 式 s = a" mod N 是 否 成 立 。 因 为 该 方法 基于 
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公 钥 密码 技术 ,计算 开销 很 大 ; 特别 当 存 储 文件 大 的 时 候 ,该 方案 的 计算 开销 更 大 。 文 献 
[46] 的 原理 与 此 相同 ,但 其 目的 是 阻止 数据 传输 中 的 欺骗 。 文 献 [47] 利 用 基于 RSA 的 
Hash 函数 的 同 态 性 ,可 以 在 初始 化 时 间 开 销 与 用 户 的 存储 开销 间 进 行 权衡 。 该 方案 也 是 
基于 RSA ,用 户 和 存储 服务 器 都 有 模 指 运算 ,计算 开销 太 大 。 

美国 约翰 。 霍 普 金 斯 大 学 (Johns Hopkins University) 的 Ateniese 等 人 在 这 方面 做 了 
一 些 研 究 工作 ,他 们 在 文献 [8] 中 第 一 次 正式 定义 了 PDP 方案 。 文 中 提出 的 两 个 PDP 方案 
都 是 使 用 同 态 可 验证 标签 (Homomorphic Verifiable Tags) ,用户 为 每 个 数据 块 生成 一 个 
Tag, 将 此 Tag 连同 数据 存放 在 服务 器 上 。 验 证 时 ,用 户 随机 选择 一 些 块 向 服务 器 发 出 挑 
战 , 要 求 服 务 器 返回 持 有 这 些 块 的 证 据 。 服 务 器 利用 请 求 块 及 相应 的 标签 生成 持 有 证 据 。 
因为 同 态 性 ,多 个 文件 块 的 标签 可 以 聚合 成 一 个 值 , 因 此 极 大 地 节省 了 响应 带宽 。 用 户 通过 
验证 响应 信息 确认 数据 拥有 ,而 不 需要 检索 数据 。 提 出 的 方案 只 需要 用 户 维 护 常量 的 元 数 
据 信 息 , 服 务 器 的 开销 也 近似 为 一 个 常量 ,挑战 应 答 只 需 1Kb 左右 。 实 验 表 明 ,方案 的 性 能 
受 限于 磁盘 1/O 而 不 是 密码 计算 。 文 中 作者 第 一 次 提出 公开 验证 的 方法 。 但 是 该 方案 在 
生成 证 据 时 使 用 基于 RSA 的 模 指 运算 ,也 没有 考虑 数据 更 新 问题 。 并 且 该 方案 的 多 个 服务 
器 可 以 共 谋 (Collusion Attacks) ,所 以 不 适用 于 多 副本 协议 。 

自从 Ateniese 等 提出 同 态 可 验证 标签 ,研究 者 们 提出 了 很 多 基于 同 态 标签 的 PDP 方案 。 
根据 采用 的 签名 算法 ,主要 可 分 为 基于 RSA 的 PDP?) 与 基于 BLS 的 PDP 1222102655) 。 

基于 RSA 的 PDP 方案 主要 是 利用 了 RSA 算法 的 同 态 特性 ,具体 构造 方案 如 下 。 在 预 
处 理 阶 段 ,用 户 生 成 密 钥 对 PK = (Ng. pk) SK — GEO Kb N 为 两 个 大 素数 p,g 的 
RSA 模 数 ,g 为 模 N 二 次 剩余 集 的 生成 元 ,随机 数 pk ,sk 满足 pk * sk=1mod(p—1)(q— 
1); 而 后 将 文件 F odd. BF = (m; |0<1 <n) ,并 为 每 个 数据 块 生成 RSA 签名 作为 其 对 应 
标签 , 即 o, — (X G | lO g " O* ,其 中 i 代表 数据 块 标号 ,n 为 数据 块 数目 ,v 为 文件 标识 符 ,h 
为 哈 希 函数 ; 最 后 将 文件 下 以 及 数据 块 标签 集 Q 一 同上 传 至 云 服务 器 。 在 挑战 阶段 ,为 了 
节省 通信 开销 ,通常 采用 抽样 审计 的 方式 。 审 计 者 随机 选择 两 个 密 钥 &l1 ,&2 ,生成 挑战 信息 
chall 一 (c,R1,&2,gs) 发 送 至 云 服 务 器 ,其 中 为 抽取 数据 块 数目 ,gs 一 gs 为 随机 值 。 云 
服务 器 收 到 挑战 信息 后 ,首先 计算 ai = fin GO sbi — fus GO CO Ti HP fais fo 均 为 随 
机 数 生成 函数 ,生成 的 a; 表示 被 抽样 的 数据 块 序号 ,0; 是 每 个 数据 块 对 应 的 随机 值 ; 继而 
计算 数据 块 证 据 信 息 M 二 HC(gs”),D==bimai 十 bsmos 十 … 十 bm te SIE BT = 
IIj2,—.05 : 最 后 将 审计 证 据 (M, 丁 ) 发 送 至 审计 者 。 审计 者 收 到 证 据 后 ,首先 计算 1 二 1/ 
h(aillv)*(0 过 i 之 c) ,其 中 :二 T* BAR HGO M 是 否 相 等 。 若 两 者 相等 , 则 验证 
通过 ; 反之 则 不 通过 。 

Ateniese 等 在 文献 [8] 中 已 证 明 ,车 数据 块 出 错 概率 为 1% ,要 达到 99% 的 错误 识别 率 ， 
只 需要 随机 抽取 460 个 数据 块 进行 抽样 验证 即 可 ; 要 达到 95% 的 错误 识别 率 , 只 需要 随机 
抽取 300 个 数据 块 进行 抽样 验证 即 可 。 

从 基于 RSA 的 PDP 方案 的 构造 过 程 可 知 ,该 方案 利用 同 态 签 名 的 可 聚合 特性 ,将 云 服 
务 器 与 审计 者 之 间 的 通信 开销 降低 至 常数 级 。 然 而 ,该 类 方案 需要 为 每 个 数据 块 生成 与 安 
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全 系数 成 正比 的 标签 信息 ,使 得 云 服 务 器 与 用 户 间 通 信 开 销 以 及 云 服务 器 对 标签 的 存储 开 
HBK., BLS 是 Boneh 等 人 提出 的 一 种 新 的 签名 技术 " ,在 同等 安全 强度 下 ,其 签名 长 度 
较 之 RSA 签名 更 短 。 因 而 ,有 研究 者 提出 用 BLS 签名 代替 RSA 签名 站 ,以 降低 通信 
和 存储 开销 ,并 提高 审计 效率 。 

基于 BLS 签名 的 公开 审计 方案 (BLS-PA) 主 要 利用 了 双 线 性 映射 的 相关 性 质 ,其 一 般 
构造 过 程 描 述 "" 如 下 。 在 预 处 理 阶 段 ,用 户 根据 乘法 循环 群 G， 生成 密 钥 SK = (sk), 
PK —(g us pk), 其 中 g NG, 的 生成 元 ,sk ,wu€2。 均 为 随机 值 , 目 pk = g*; 继而 为 每 
个 数据 块 生成 BLS 标签 , 即 oi 二 (h(i|1v)g™)*, 并 将 文件 与 数据 块 标签 集 一 同 存储 至 云 
服务 器 。 在 挑战 阶段 ,审计 者 随机 抽取 c 个 数据 块 序号 a; ,为 每 个 序号 选取 一 个 随机 值 5;， 
并 将 它们 作为 挑战 chall— (02; .0,) | 0<i<c) 发 送 到 云 服 务 器 。 收 到 挑战 后 , 云 服务 器 按 
照 抽 样 序列 分 别 聚合 数据 块 和 标签 , 即 荆 = [i<co%,M = 50o<:< 必 imai， 并 将 得 到 的 聚 
合 值 (T,M) 作 为 审计 证 据 发 送 到 审计 者 。 审 计 者 收 到 证 据 后 ,通过 判断 等 式 e(T,pk) = 
e(Mocice h (Ca; | lv) u” ,g) 是 否 成 立 来 对 数据 完整 性 进行 验证 。 若 等 式 成 立 , 则 验证 通过 ; 
否则 不 通过 。 

另外 ,Ateniese 等 在 文献 [49] 中 提出 在 随机 预言 模型 (Random Oracle Model) 下 使 用 
任何 具有 同 态 属 性 的 鉴定 协议 (Identification Protocol) 构造 公 钥 同 态 线性 认证 器 
(Homomorphic Linear Authenticator, HLA) 的 通用 机 制 , 并 表明 怎样 将 任何 公 钥 HLA 转 
化 为 公开 可 验证 的 存储 证 明 方案 (Proofs of Storage, PoS) ,使 通信 复杂 度 与 文件 长 度 无 关 ， 
并 且 支 持 无 限 次 验证 。 但 是 该 方案 也 是 基于 公 钥 密码 技术 ,所 以 计算 开销 比较 大 。 在 文献 
[17J 中 ,他 们 提出 基于 对 称 密码 技术 构造 PDP 方案 。 该 方案 在 初始 化 的 时 候 , 由 用 户 设 定 
要 挑战 的 次 数 和 内 容 , 将 响应 作为 元 数据 存放 在 用 户 端 ,因此 更 新 次 数 和 挑战 次 数 都 是 有 限 
的 。 而 且 它 只 支持 append- 类 型 的 插入 ,也 不 支持 公开 验证 。Chen 等 5 利用 代数 签名 的 同 
态 性 和 高 效 性 提出 一 个 高 效 的 基于 代数 签名 的 数据 持 有 性 方案 。 

在 公开 可 验证 的 完整 性 审计 方案 中 ,由 于 TPA 的 引入 ,如 何 保护 用 户 隐 私 在 审计 过 程 
中 不 被 泄露 成 为 一 个 需要 重点 解决 的 问题 。 虽 然 上 述 基 于 同 态 认证 技术 的 审计 方案 中 ， 
TPA 没有 直接 接触 用 户 数据 ,但 从 理论 上 讲 TPA 完全 有 可 能 通过 求解 线性 方程 组 的 方式 
从 其 收 到 的 数据 块 聚合 值 中 分 析出 用 户 原始 数据 的 相关 信息 ,从 而 使 得 用 户 隐私 存在 被 汇 
露 的 风险 。 为 应 对 这 一 挑战 ,Wang 等 中 提出 将 随机 掩 码 植 信 到 数据 块 聚合 值 中 以 防止 
TPA 的 逆向 解析 。 具 体 来 说 , 云 服务 器 植 信 随机 掩 码 的 过 程 可 表述 为 : M'=M+rH w), 
其 中 u 为 事先 协商 好 的 全 局 参量 (Global Parameter? ,H(z) 为 哈 希 函数 。 随 后 , 云 服务 器 
将 {M',r} 作 为 审计 信息 发 送 给 TPA。 随 机 掩 码 的 引入 不 会 影响 数据 完整 性 的 验证 ,但 
TPA 已 无 法 通过 求解 线性 方程 组 的 方式 获知 任何 的 数据 信息 。 此 种 保护 用 户 隐 私 的 机 制 
也 在 其 后 的 审计 方案 “中 中 得 到 了 广泛 的 应 用 。 

在 公开 审计 中 ,TPA 经 常 同时 收 到 来 自 多 个 用 户 的 审计 请 求 。 若 TPA 将 任务 进行 排 
队 再 逐一 审计 ,其 效率 显然 是 不 高 的 。 因 此 ,审计 过 程 中 常 采用 批量 审计 的 方式 5520 , 即 利 
用 同 态 标 签 的 可 聚合 特性 ,将 不 同 审计 请 求 产 生 的 审计 证 据 聚 合 后 再 一 次 性 完成 验证 。 在 
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基于 BLS 算法 的 审计 方案 中 ,对 于 存储 在 云端 的 ww 个 不 同 用 户 的 w 个 文件 而 言 ,批量 审计 
构造 过 程 可 描述 如 下 。 在 数据 预 处 理 阶 段 ,w 个 用 户 分 别 产生 他 们 的 密 钥 {SK ; = GR. 
PK; 二 (ui,gispki)10 过 i 二 w}) 后 ,将 文件 分 块 并 计算 每 个 数据 块 的 BLS 标签 ,随后 用 户 将 
MARE F= (m4 |0O<i<w.0<j<n}(n 为 数据 块 数目 ) 数据 块 对 应 标签 N= (0, |O< 
i 过 w ,0 二 j 二 n) 一 同 存储 于 云 服 务 器 。 在 挑战 阶段 ,TPA 同时 收 到 来 自 w 个 用 户 的 审计 
HOR. BD R= (req; |O<i<w} ,并 依照 前 文 所 述 ,生成 挑战 信息 chall={(a;.b;)|0<i<c}, 
同时 发 送 给 存储 了 vo 个 文件 的 云 服 务 器 。 云 服务 器 对 所 有 返回 的 数据 块 和 标签 信息 {(cv， 
m;)|0-i wy 0K jc) ruit HE he EEN © = IL cs CI, 52,07, ) 和 数据 块 证 据 M, = 
Do<j<cb mu; Oi Kw) RE EAB B CD (M, L0 iw) RAR TPA, TPA 收 到 证 据 
信息 后 ,判断 等 式 e(@ Lg) — Ioue Clo Lh Col lj) uM ,pk) 是 否 成 立 ; 若 成 立 则 审计 通 
过 ,反之 不 通过 。 

从 上 述 过 程 不 难看 出 , 较 之 逐一 审计 的 方式 ,批量 审计 有 如 下 优势 : 其 一 ,所 有 标签 信 
息 在 传递 给 TPA 之 前 就 被 聚合 ,有 效 地 减少 了 通信 开销 ; 其 二 ,由 于 审计 证 据 是 聚合 后 再 
一 次 性 验证 ,减少 了 TPA 做 双 线性 映射 运算 的 次 数 。 简 言 之 ,批量 审计 不 仅 可 有 效 提高 
TPA 的 审计 效率 ,同时 可 减少 云 服务 器 与 TPA 间 的 通信 开销 。 然 而 ,值得 注意 的 是 ,在 批 
量 审计 中 ,只 有 当 所 有 用 户 数据 均 正 确 且 完整 时 ,打包 ”处 理 的 高 效 性 才能 体现 。 而 一 旦 有 
数据 出 错 ,审计 将 无 法 通过 ,此 时 定位 出 错 数据 将 成 为 需要 解决 的 一 个 新 闻 题 I。 当然 ,最 
直接 的 解决 措施 是 对 各 数据 块 逐 一 进行 审计 以 找 出 错误 。 但 该 方式 的 处 理 效率 显然 是 不 高 
的 。 因 此 ,如 何 快速 定位 出 错 数据 仍 是 有 待 解决 的 重要 问题 。 

此 外 ,在 云 存储 应 用 中 ,用 户 通常 会 要 求 采用 多 副本 备份 的 方式 提高 其 数据 的 可 靠 
JEU? 。 不 同 于 前 述 方案 ,多 副本 数据 的 审计 既 需 要 保证 各 副本 的 完整 性 ,还 需 保 证 副本 数 
目的 正确 性 。 由 于 所 有 副本 数据 的 内 容 是 一 致 的 .如 果 用 户 将 其 直接 存储 在 云端 ,不 诚信 的 
云 服务 器 只 需 持 有 少量 甚至 单个 正确 的 副本 即 可 通过 审计 。 因 此 ,在 数据 初始 化 阶段 , 需 对 
多 副本 数据 进行 差别 化 处 理 。 

Curtmola 等 中 通过 改进 基于 RSA 签名 的 审计 方案 第 一 次 提出 多 副本 PDP(Multiple- 
Replica PDP,MR-PDP) 方 案 ,允许 用 户 通过 挑战 应 答 协议 验证 服务 器 存储 文件 上 个 副本 : 
每 个 副本 是 可 用 的 、 使 用 上 倍 的 存储 空间 存储 数据 的 : 个 副本 。MR-PDP 扩展 了 文献 [18] 
的 单 副本 的 情况 ,还 可 以 增加 新 的 副本 ,而 不 需要 对 文件 进行 预 处 理 。 该 方案 的 构造 过 程 如 
下 : 在 数据 预 处 理 阶段 ,用 户 密 钥 和 数据 块 对 应 标签 的 生成 方式 与 前 述 基于 RSA 签名 的 审 
计 方 案 相同 。 但 为 实现 多 副本 数据 的 差别 化 ,用 户 先 使 用 私 钥 sk 将 文件 加 密 成 F — (on) |O< 
in) ,然后 利用 随机 掩 码 为 之 生成 多 个 不 同 的 副本 数据 块 , 即 F= (004 10<i<w,0 达 j 过 
n}sby=mi tr, HP w 为 副本 数目 ,n 为 数据 块 数目 ,rz 为 随机 数 生成 函数 和 用 户 私 钥 共 
同 作用 生成 的 随机 掩 码 。 在 挑战 阶段 ,审计 者 依次 验证 每 一 个 副本 的 完整 性 。 其 挑战 chall 
生成 和 证 据 (T,M) 生 成 过 程 均 与 上 述 基 于 RSA 签名 的 审计 方案 一 致 。 所 不 同 的 是 ,由 于 
引入 了 随机 掩 码 ,审计 者 收 到 证 据 后 需要 先 对 标签 聚合 值 进行 处 理 : TST e gru = 
Yo-i<cru ,再 做 验证 。 该 方案 初步 解决 了 多 副本 数据 审计 的 问题 ,但 仍 存在 如 下 不 足 : 其 
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一 ,审计 阶段 所 要 用 到 的 信息 raus 是 用 户 密 钥 生成 的 掩 码 累加 值 ,因而 审计 工作 不 能 交 由 
除 用 户外 的 其 他 实体 完成 , 即 不 支持 公开 审计 ; 其 二 ,对 于 多 个 副本 文件 需 逐 一 审计 ,其 效 
率 显然 是 不 高 的 。 

随后 ,Barsoum 等 5 提出 了 一 种 基于 BLS 签名 的 多 副本 公开 审计 方案 。 该 方案 通过 
加 密 的 方式 实现 副本 数据 的 差别 化 ,并 采用 类 似 批量 审计 的 方式 通过 单 次 交互 即 可 验证 多 
副本 数据 的 持 有 性 。 在 数据 预 处 理 阶段 ,用 户 需 要 为 给 定 文件 下 生成 指定 个 数 副 本 {Fi10 一 
iw) ,其 中 每 个 副本 由 用 户 将 下 与 其 副本 序号 拼接 并 加 密 得 到 , 即 FSE] ID BN 
副本 序列 号 ,sk 为 用 户 私 钥 ,E 为 加 密 算法 。 此 处 私 钥 生 成 .标签 生成 等 过 程 与 前 述 BLS- 
PA 相同 。 在 挑战 阶段 ,挑战 信息 将 发 送 到 所 有 存储 有 副本 的 服务 器 ; 云 服 务 器 将 所 有 副本 
的 数据 块 与 标签 分 别 聚 合 , 其 过 程 为 : © = cico Mcjaco as M; = Xo b;m;u; (O< 
iw) ,其 中 miu; 表示 第 i 个 副本 的 第 a; 个 数据 块 , 其 他 变量 与 前 述 BLS-PA 一 致 。 云 服 
务 器 最 后 将 (8 , {M10 二 i 二 w}) 作 为 审计 证 据 发 送 给 TPA, TPA 收 到 审计 信息 后 ,通过 判 
WEEE eC. g) —eCIL zh (v11j)*”)”,pk) 是 否 成 立 对 多 副本 持 有 性 进行 验证 。 若 成 立 
则 审计 通过 ,否则 不 通过 。 与 前 述 MR-PDP 方案 "中 相 比 ,该 方案 具有 如 下 优势 ; 审计 过 程 
无 需 用 户 参 与 ,从 而 可 支持 公开 审计 ; 审计 过 程 通过 TPA 与 云 服 务 器 的 一 次 交互 即 完 成 ， 
相 较 于 MR-PDP 的 逐一 审计 ,有 效 地 降低 了 通信 开销 和 计算 开销 。 然 而 ,该 方案 中 实现 副 
本 区 别 化 的 加 密 方式 开销 较 大 ,特别 是 对 于 频繁 更 新 的 动态 数据 ,反复 地 加 密 、 解 密 显 然 不 
是 一 个 理想 的 选择 。 而 且 , 上 述 两 种 方案 均 不 支持 动态 多 副本 数据 的 审计 。 此 外 ,与 批量 审 
计 类 似 , 当 所 有 副本 数据 都 正确 且 完 整 的 , 现 有 方案 所 采用 的 “ 先 聚 合 证 据 青 审计 ”策略 能 显 
著 提高 审计 效率 ,而 一 旦 有 副本 出 错 , 如 何 快速 定位 出 错 副 本 将 成 为 一 个 新 的 值得 深入 研究 
的 重要 问题 3。 付 等 人 中 提出 了 一 种 多 副本 文件 的 完整 性 验证 方案 ,与 以 往 的 多 副本 数 
据 完整 性 验证 方案 不 同 ,该 方案 能 够 验证 所 有 副本 文件 的 完整 性 。 

清华 大 学 的 舒 继武 教授 等 人 提出 的 数据 持 有 性 检查 (Data Possession Checking, 
DPC)555 是 国内 第 一 篇 关于 数据 持 有 性 证 明 的 论文 。 方 案 的 基本 思想 是 在 一 次 挑战 中 , 检 
查 者 指定 文件 中 * 个 随机 位 置 的 数据 块 和 一 个 密 钥 &, ,服务 器 根据 这 些 数据 块 和 密 钥 ko 由 
单 向 Hash PR A C * Od E — A Hash 值 , 并 和 一 个 与 之 对 应 的 校 验 块 一 起 返回 给 检查 
者 ,检查 者 检查 Hash 值 和 校 验 块 是 否 匹 配 以 确定 应 答 是 否 有 效 。 为 了 避免 检查 者 为 每 个 
挑战 记 住 c 个 随机 位 置 和 密 钥 ,每 次 挑战 的 位 置 由 伪 随 机 置换 g(。) 根 据 一 个 密 钥 ki E 
成 ,并 且 第 j 次 挑战 的 &, 和 ks 可 由 第 j 一 1 次 挑战 的 和, 得 到 ,这 样 检查 者 只 需 为 每 
个 文件 记 住 两 个 密 钥 即 可 。 同 时 ,他们 提出 一 种 基于 校 验 块 循环 队列 的 挑战 更 新 机 制 , 通 过 
更 新 挑战 允许 动态 增加 检查 者 可 发 起 的 有 效 挑战 的 次 数 。 测 试 结果 表明 ,检查 者 端的 存储 
开销 与 检查 者 和 服务 器 间 的 通信 开销 均 为 常数 量 级 ,如 一 次 置信 度 为 99. 4% 的 持 有 性 检查 
的 计算 开销 为 1. 8ms ,与 磁盘 1/O 开销 相 比 可 以 忽略 不 计 。 方 案 通过 避免 使 用 公 钥 密码 系 
统 , 将 文件 预 处 理 的 计算 开销 降低 了 3 个 数量 级 。 但 是 他 们 没有 提供 安全 性 证 明 。 

云 存 储 环境 中 存在 大 量 的 需 频繁 更 新 ( 需 进 行 增加 、 删 除 和 修改 操作 ) 的 数据 , 称 之 为 动 
态 数据 。 传 统 的 基于 静态 数据 (或 称 归档 数据 ) 的 审计 方案 不 能 直接 应 用 此 类 数据 ,其 原因 
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主要 是 : 传统 审计 方案 中 数据 块 标签 的 计算 过 程 c 一 (Gillz)g”)” 涉 及 数据 块 的 序号 值 
i 而 对 于 数据 块 的 增删 操作 会 引起 序号 值 的 变化 ,并 最 终 导 致 相关 数据 块 标签 需要 重新 生 
成 ,从 而 给 用 户 带 来 较 大 的 额外 开销 ; 频繁 更 新 操作 使 得 数据 块 的 版 本 信息 不 断 变化 ,审计 
过 程 不 但 要 验证 数据 的 完整 性 ,还 需 确 保 数据 的 新 鲜 度 ( 即 最 新 版 本 )。 鉴 于 此 , 需 设计 支持 
数据 动态 性 的 云 数据 持 有 性 审计 方案 "9 。 

布朗 大 学 (Brown University) 的 Erway 等 人 提出 两 种 动态 数据 持 有 性 证 明 方 案 
(Dynamic PDP, DPDP)U? 实现 数据 更 新 。 一 种 使 用 基于 等 级 的 鉴别 跳 表 (Rank-based 
Authenticated Skip Lists) ,一 种 基于 RSA 树 结构 。 其 主要 工作 是 实现 动态 性 , 即 实现 插入 
操作 。 整 个 方案 仍然 是 基于 RSA 的 模 指 运 算 。 随 后 , Wang 55 AU? 提出 了 一 种 基于 MHT 
(Merkle Hash Tree) 的 动态 数据 公开 审计 方案 (MHT-PA)。 为 进一步 提高 动态 数据 的 审 
计 和 更 新 效率 ,Zhu 等 人 5 提出 了 一 种 基于 IHT(Index Hash Table ) 的 审计 方案 (IHT-PA)。 

美国 伊利 诺 理 工大 学 (lllinois Institute of Technology) 的 Wang 和 美国 伍 斯 特 理工 学 
院 (Worcester Polytechnic Institute) 的 Lou 在 文献 [54] 中 第 一 次 在 云 计 算 环境 下 考虑 数据 
存储 的 安全 性 ,他 们 提出 的 方案 可 以 定位 发 生 错 误 的 服务 器 ,并 实现 了 部 分 数据 更 新 操作 。 
在 接 下 来 的 工作 中 中 ,他 们 提出 结合 基于 BLS 的 同 态 鉴 别 器 和 MHT, 支 持 公开 验证 和 数 
据 更 新 。 在 文献 L[14] 中 ,他 们 考虑 的 是 引入 一 个 第 三 方 的 审计 者 ,结合 随机 掩 码 技术 实现 隐 
私 保护 ,不 向 第 三 方 审计 者 泄露 信息 。 但 是 他 们 的 数据 持 有 性 证 明 方案 都 是 基于 公 钥 密码 
技术 , 且 没 有 考虑 相关 数据 恢复 技术 。 

Wang 等 提出 一 个 多 云 环境 下 的 基于 身份 ID 的 无 证 书 的 云端 数据 完整 性 验证 方案 。 
Liu 等 中 提出 一 个 大 数据 环境 下 的 动态 的 支持 公开 审计 的 PDP 方案 ,该 方案 实现 了 一 种 高 
效 的 可 验证 的 细 粒 度 更 新 机 制 。 

以 上 都 是 数据 持 有 性 证 明 的 方案 ,这些 方案 考虑 到 各 种 需求 ,比如 动态 更 新 ` 多 副本 数 
据 等 ,同时 为 了 提高 检测 效率 ,提出 公开 审计 与 批量 审计 ,但 所 有 这 些 方案 都 没有 考虑 到 检 
测 到 错误 后 ,如 何 进行 数据 恢复 的 问题 。 

2. PORZ 

RSA 实验 室 的 Juels 和 EMC 公司 的 Kaliski 第 一 次 提出 POR 的 概念 ,并 提出 基于 
“哨兵 "CSentinel) 的 POR 方案 。 其 基本 思想 是 首先 将 文件 加 密 并 使 用 纠 错 码 编码 ,在 编码 
后 的 文件 中 随机 插入 和 文件 数据 不 可 区 分 的 “哨兵 ”; 检查 者 在 挑战 时 要 求 服务 器 返回 在 这 
些 随机 位 置 的 “哨兵 ”。 他 们 证 明 只 要 服务 器 以 大 于 一 定 值 的 概率 做 出 有 效应 答 , 则 文件 是 
可 恢复 的 。 因 为 每 挑战 一 次 就 消耗 一 个 岗 哨 , 并 且 没有 挑战 更 新 机 制 ,因此 只 能 进行 有 限 次 
的 挑战 。 因 为 编码 及 增加 的 “哨兵 ”导致 文件 的 膨胀 率 达 到 15% 。 

美国 加 州 大 学 圣地 亚 哥 分 校 的 Shacham 和 得 克 萨 斯 大 学 奥斯汀 分 校 的 Waters 在 文献 
[6] 中 提出 的 两 个 方案 也 是 使 用 同 态 标 签 : 一 个 方案 基于 伪 随 机 函数 ,不 支持 公开 验证 ; 另 
一 个 方案 基于 BLSA ,支持 公开 验证 。 他 们 使 用 纠 删 码 编码 ,但 是 没有 考虑 数据 更 新 
问题 。 

在 文献 [59] 中 ,Dodis 等 人 第 一 次 提出 POR 码 ,并 对 其 进行 形式 化 及 理论 分 析 工 作 , 给 


第 7 章 ” 云 存储 服务 的 数据 完整 性 审计 [pe 153 


出 了 几 个 将 POR 码 转换 为 POR 方案 的 方法 。 他 们 提出 在 安全 性 与 其 他 参数 (如 使 用 次 
数 .挑战 位 置 和 服务 器 存储 开销 等 ) 之 间 进 行 权 衡 的 方案 ,但 文中 没有 特别 考虑 通信 开销 及 
计算 开销 ,也 没有 考虑 数据 更 新 问题 。 

RSA 实验 室 的 Bowers 等 人 在 文献 [60] 中 提出 一 个 设计 POR 的 理论 框架 ,用 于 改进 已 
有 方案 的 POR 构造 ,实现 更 低 的 存储 开销 和 更 高 的 检 错 率 。 他 们 指出 关于 文件 更 新 及 公 
开 验 证 仍然 是 未 解决 的 公开 问题 。 

Curtmola 等 人 将 前 向 纠 错 码 (Forward Error Correcting Codes. ffit FEC) 集 成 到 PDP 
Jr ROM ,是 因为 考虑 到 不 同 的 FEC 编码 具有 不 同 的 性 能 .灵活 性 .可 配置 性 、 纠 错 码 效率 
和 数据 输出 格式 等 。 他 们 认为 RS 编码 效率 太 低 ,所 以 将 原始 文件 交换 位 置 , 从 中 选择 一 部 
分 进行 RS 编码 ,从 而 提高 编码 效率 ; 而 且 攻击 者 不 知道 元 余 码 是 从 哪些 块 计算 得 到 的 ,可 
以 提高 安全 性 。 但 是 ,他 们 提出 的 方案 需 为 每 个 块 独立 生成 MAC, 显 然 会 带 来 很 大 的 存储 
开销 。 

RSA 实验 室 的 Bowers 等 人 在 文献 [62] 中 提出 的 HAIL 方案 可 在 多 个 存储 服务 提供 者 
的 云 服 务 器 存放 数据 副本 ,然后 使 用 POR 方案 检测 数据 是 否 被 破坏 。 当 检测 到 某 一 服务 
提供 者 的 数据 被 破坏 时 ,可 以 利用 其 他 服务 器 的 数据 进行 恢复 。 作 者 提出 将 MAC fibi A 
奇偶 校 验 块 中 。 首 先 HAIL 使 用 分 散 码 (Dispersal Code) 将 文件 块 分 散 到 不 同 服务 器 上 , 因 
为 MAC 和 奇偶 校 验 块 都 可 以 基于 UHFs (Universal Hash Functions) ,作者 提出 结合 
PRFs、ECCs 及 UHFs 的 可 以 保证 完整 性 的 纠 错 码 IP-ECC。 文 中 对 攻击 模型 有 一 个 重要 
的 约束 条 件 : 在 一 个 给 定 的 时 间 段 ,只 能 控制 个 服务 器 中 的 5 个 ,这 样 的 一 个 时 间 段 叫 作 
epoch ,那么 过 了 n/b 个 epoch ,数据 可 能 都 被 破坏 。HAIL 方案 保护 静态 数据 的 完整 性 ,不 
能 进行 数据 更 新 ,也 不 能 进行 公开 验证 。 

从 以 上 方案 的 构造 可 知 ,POR 方案 通常 是 在 PDP 方案 的 基础 上 加 入 纠 错 / 纠 删 码 来 实 
现 数据 的 可 恢复 性 ,但 如 何 将 纠 错 / 纠 删 码 与 已 有 的 PDP 方案 高 效 地 结合 在 一 起 ,也 是 一 个 
需要 研究 的 问题 。 

3. 其 他 方案 

美国 圣 塔 克 莱 拉 大 学 (Santa Clara University) 的 Schwarz 和 美国 加 州 大 学 圣 克 鲁 效 分 
校 (UCSC) 的 Miller 在 文献 L63] 中 提出 使 用 线性 纠 删 码 将 数据 编码 ,使 用 代数 签名 
(algebraic signature) 对 块 计算 指纹 。 因 为 代数 签名 具 同 态 属 性 ,而 且 ECC 是 线性 码 , 所 以 
只 要 在 相同 的 域 上 计算 签名 和 奇偶 校 验 ,就 可 以 使 用 数据 的 签名 计算 得 到 唯一 的 奇偶 校 验 
的 代数 签名 。 他 们 考虑 的 是 P2P 的 环境 下 ,将 数据 编码 后 分 条 存放 在 Internet 上 的 普通 机 
器 上 ,没有 给 出 方案 的 安全 性 证 明 。 

HP 实验 室 的 Lillibridge 等 人 在 文献 [64] 中 提出 利用 Internet 的 普通 机 器 实现 P2P 备 
份 系统 。 每 个 计算 机 有 一 个 伙伴 集 ,并 且 由 一 个 简单 的 中 心服 务 器 来 寻找 伙伴 。 每 个 计算 
机 周期 地 向 中 心服 务 器 更 新 它 的 身份 及 需要 的 伙伴 ,中 心服 务 器 向 它 提供 侯 选 伙伴 集 , 该 计 
算 机 再 联系 这 些 伙伴 。 为 保证 机 密 性 ,数据 发 送 给 伙伴 机 器 前 使 用 对 称 密码 技术 加 密 , 并 且 
使 用 Reed-Solomon 纠 错 码 在 伙伴 机 器 间 进 行 元 余 纠 错 。 数据 拥有 者 可 以 向 伙伴 机 器 发 起 
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挑战 ,判断 该 伙伴 是 否 完整 保存 数据 。 类 似 于 PDP 方案 ,验证 时 使 用 MAC 码 , 额 外 的 存储 
开销 比较 大 。 

HP 实验 室 的 Shah 等 人 在 文献 [65] 中 提出 了 基于 数据 委托 的 方案 。 基 于 加 密 文 件 的 
MAC, 第 三 方 审计 者 通过 挑战 应 答 验 证 存储 服务 提供 者 持 有 一 个 加 密 的 文件 。 因 为 挑战 是 
预计 算 的 ,只 能 进行 有 限 次 的 验证 ,元 数据 也 随 挑战 次 数 线性 增长 ; 并 且 方 案 只 能 用 于 加 密 
的 文件 ,要求 审计 者 维护 长 期 的 状态 信息 。 在 文献 [66] 中 他 们 提出 了 具有 隐私 保护 特性 的 
方案 , 即 不 向 第 三 方 泄露 任何 信息 。 该 方案 也 只 能 用 于 加 密 的 文件 ,也 要 对 整个 文件 计算 
MAC 以 及 使 用 MAC 验证 数据 持 有 性 ,有 较 大 的 计算 和 存储 开销 , 且 没 有 考虑 数据 更 新 问 
题 及 相关 数据 恢复 技术 。 

美国 布朗 大 学 (Brown University) AY Heitzmann 等 人 在 文献 [67] 中 提出 验证 服务 器 响 
应 的 数据 与 用 户 执 行 的 更 新 是 否 一 致 。 该 方案 不 同 于 PDP 方案 ,其 目标 不 在 于 检测 到 数据 
破坏 ,而 是 验证 服务 器 响应 的 数据 与 Client 执行 的 更 新 一 致 ,因此 响应 数据 只 被 用 于 验证 完 
整 性 ,并 且 只 在 请 求 文件 的 时 候 才 执行 。 方 案 使 用 鉴别 跳 表 维护 认证 信息 ,支持 简单 ,快速 
的 更 新 。 他 们 实现 了 一 个 在 Amazon S3 上 的 原型 系统 ,用 户 只 需 存放 一 个 Hash 值 ,存储 
开销 为 OCD ,服务 器 的 计算 开销 是 O(log(n))。 

Sebe 等 人 在 文献 [68] 中 提出 的 方案 基于 Diffie-Hellman 问题 ,要 求 用 户 为 每 个 块 存放 
N 位 RSA 模 位 数 ,因此 其 存储 开销 随 着 数据 块 数 线性 增长 ,并 且 协 议 要 求 服务 器 访问 整个 
文件 。 新 加 坡 国立 大 学 (National University of Singapore) 的 Chang 和 Xu 在 文献 [69] 中 提 
出 Remote Integrity Check (RIC) ,RIC 方案 结合 文献 L46] 中 基于 RSA 的 方案 和 文献 [70] 
中 基于 ECC 的 鉴定 器 , 它 不 是 POR 系统 ,但 是 所 有 在 RIC 下 证 明 安全 的 方案 也 可 用 于 
POR 系统 。RIC 的 目标 在 于 只 需要 验证 者 存放 少量 的 额外 信息 就 可 以 定期 地 检测 远程 服 
务 是 否 保存 了 一 个 大 文件 。 但 是 他 们 的 方案 也 继承 了 文献 [46] 和 [70] 中 方案 的 缺陷 ,基于 
公 钥 密码 技术 ,并 且 要 求 对 整个 文件 取 寡 ,计算 开销 很 大 。 在 文献 L[71] 中 ,Yamamoto 等 人 
也 提出 使 用 基于 RSA 的 同 态 Hash 函数 进行 数据 持 有 性 验证 ,同时 还 提出 使 用 批 验证 提高 
效率 。 

另外 ,与 PDP 相关 的 是 存储 复杂 度 的 概念 。 它 表明 服务 器 保存 的 是 与 Client 数据 量 相 
等 的 信息 ,而 不 一 定 存放 的 是 原始 文件 。Golle 等 人 在 文献 [72] 中 第 一 次 提出 执行 存储 复 
杂 度 ,他 们 提出 一 个 基于 Diffie-Hellman 假设 的 方案 ,使 证 明 者 表明 其 至 少 使 用 了 大 小 为 
|F| 的 存储 空间 ,但 证 明 者 没有 直接 证 明 存 放 了 文件 F, 只 是 证 明 已 经 分 配 了 足够 的 资源 来 
做 这 些 事情 。 

PDP 也 是 一 种 形式 的 内 存 检测 中 。Blum 等 人 在 文献 [73] 中 第 一 次 提出 验证 文件 完 
整 性 而 不 需要 整个 文件 数据 的 问题 ,他 们 探究 了 如 何 高 效 地 检测 内 存 管理 程序 的 正确 性 。 
随后 ,一些 研 究 者 开始 探究 在 一 定 范围 与 环境 下 动态 的 内 存 检测 问题 。 如 文献 [74] 考 虑 只 
使 用 少量 状态 信息 验证 可 信 实 体 的 问题 ,如 可 信 计 算 模块 ,用 来 验证 不 可 信 的 、 外 部 的 、 动 态 
改变 的 内 存 的 任何 块 的 完整 性 。 他 们 的 构造 采用 Merkle Hash BE ,对 内 存 内 容 计 算 Hash. 
而 PDP Il POR 方案 可 以 看 成 是 静态 文件 的 内 存 完 整 性 检测 。 
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沈 文 婷 等 "外 针对 用 户 用 于 生成 数据 签名 的 私 钥 可 能 会 因为 存储 介质 的 损坏 、 故 障 等 原 
因而 无 法 使 用 的 情况 ,提出 了 第 一 个 具有 私 钥 可 恢复 能 力 的 共享 数据 云 存 储 完 整 性 检测 方 
案 。 在 方案 中 , 当 一 个 群 用 户 的 私 钥 不 可 用 时 ,可 以 通过 群 里 的 1 个 或 者 上 个 以 上 的 用 户 帮 
助 其 恢复 私 钥 。 同 时 设计 了 随机 遮掩 技术 ,用 于 确保 参与 成 员 私 钥 的 安全 性 。 用 户 也 可 验 
证 被 恢复 私 钥 的 正确 性 。 

Liu 等 人 在 文献 [76] 中 对 云端 数据 完整 性 验证 方案 的 研究 工作 进行 了 综述 ,并 总 结 和 
比较 了 具有 代表 性 的 云端 数据 完整 性 验证 方案 。 谭 霜 等 在 文献 [77] 中 给 出 了 数据 完整 性 证 
明 机 制 的 协议 框架 ,分 析 了 云 存储 环境 下 数据 完整 性 证 明 所 具备 的 特征 ; 其 次 ,在 对 各 种 数 
据 完整 性 证 明 机 制 加 以 分 类 的 基础 上 ,介绍 了 各 种 典型 的 数据 完整 性 验证 机 制 并 进行 了 对 
ITE 最 后 ,指出 了 云 存储 中 数据 完整 性 验证 面临 的 挑战 及 发 展 趋势 。 

肖 达 等 中 提出 面向 真实 云 存 储 环境 的 安全 、 高 效 的 PDP 系统 IDPA-MF-PDP。 通 过 基 
于 云 存储 数据 更 新 模式 的 多 文件 持 有 性 证 明 算 法 MF-PDP, 显 著 减少 了 审计 多 个 文件 的 开 
销 。 通 过 隐 式 第 三 方 审计 架构 和 防 算 改 审计 日 志 , 最 大 限度 地 减少 了 对 用 户 在 线 的 需求 。 
HELPS ` 云 服务 器 和 隐 式 审计 者 的 三 方 交互 协议 ,将 MF-PDP 和 隐 式 第 三 方 审计 架构 结合 
一 起 。 理 论 分 析 和 实验 结果 表明 ,IDPA-MF-PDP 具有 与 单 文件 PDP 方案 等 同 的 安全 性 ， 
且 审 计 日 志 提供 了 可 信 的 审计 结果 历史 记录 ,IDPA-MF-PDP 将 持 有 性 审计 的 计算 和 通信 
开销 由 与 文件 数 线性 相关 减少 到 接近 常数 。 

王 宕 远 等 中 给 出 了 一 种 支持 数据 去 重 的 群 组 PDP 方案 (GPDP)。 基 于 和 矩阵 计算 和 伪 
随机 函数 ,GPDP 可 以 在 支持 数据 去 重 的 基础 上 ,高 效 地 完成 数据 持 有 性 证 明 , 并 且 可 以 在 
群 组 中 抵抗 恶意 方 选 择 成 员 攻 击 。 他 们 在 标准 模型 下 证 明了 GPDP 的 安全 性 ,并 且 在 百度 
云 平台 上 实现 了 GPDP 的 原型 系统 。 徐 光 伟 等 中 提出 一 种 数据 验证 结果 的 检测 算法 来 抵 
御 来 自 不 可 信 验 证 结果 的 伪造 欺骗 攻击 ,算法 中 通过 建立 完整 性 验证 证 据 和 不 可 信和 检测 证 
据 的 双 证 据 模式 来 执行 交叉 验证 ,通过 完整 性 验证 证 据 来 检测 数据 的 完整 性 ,利用 不 可 信 检 
测 证 据 判定 数据 验证 结果 的 正确 性 ,此 外 构建 检测 树 来 确保 验证 结果 的 可 靠 性 。 理 论 分 析 
和 模拟 结果 表明 ,该 算法 通过 改善 有 效 的 验证 结果 保证 了 验证 结果 的 可 靠 性 ,提高 了 验证 
效率 。 

王 惠 峰 等 5 针对 现 有 的 数据 完整 性 审计 模型 采用 固定 参数 审计 所 有 文件 ,从 而 浪费 了 
大 量 计 算 资源 ,导致 系统 审计 效率 不 高 ,提出 了 一 种 自 适应 数据 持 有 性 证 明 方 法 (self- 
adaptive provable data possession,SA-PDP) 。 该 方法 基于 文件 属性 和 用 户 需 求 动态 调整 文 
件 的 审计 方案 ,使 得 文件 的 审计 需求 和 审计 方案 的 执行 强度 高 度 匹 配 。 为 了 增强 审计 方案 
更 新 的 灵活 性 ,依据 不 同 的 审计 需求 发 起 者 ,设计 了 2 种 审计 方案 动态 更 新 算法 。 主 动 更 新 
算法 保证 了 审计 系统 的 覆盖 率 ,而 被 动 更 新 算法 能 够 及 时 满足 文件 的 审计 需求 。 实 验 结果 
表明 , 相 较 于 传统 方法 ,SA-PDP 的 审计 总 执行 时 间 至 少 减少 了 50% ,有 效 增 加 了 系统 审计 
文件 的 数量 。 此 外 ,SA-PDP 方法 生成 的 审计 方案 的 达标 率 比 传统 审计 方法 提高 了 3076. 

在 文献 L[82] 中 , 田 晖 等 从 云 数据 持 有 性 审计 的 一 般 模型 和 审计 系统 的 设计 目标 出 发 , 按 
照 实现 的 审计 功能 ,对 近年 来 的 研究 成 果 进 行 了 详细 的 综述 ,并 对 已 有 研究 成 果 进 行 对 比分 
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析 ,指出 了 云 数据 持 有 性 审计 研究 中 存在 的 开放 问题 及 发 展 趋势 。 关 于 云 存储 环境 下 的 数 
据 完整 性 审计 还 有 一 些 综述 文献 .参见 [96-100j]。 

4. 方案 比较 分 析 

随 着 云 存储 的 发 展 与 普及 ,数据 完整 性 审计 方案 取得 了 丰硕 的 研究 成 果 。 综 合 以 上 的 
研究 工作 ,所 提出 的 方案 在 审计 特性 或 审计 功能 方面 各 有 侧重 ,总 结 如 表 7-1 RO 。 


Xa 云 数据 持 有 性 审计 方案 的 功能 比较 


审计 方案 公开 动态 批量 多 副本 可 共 ”数据 隐 身份 隐 安全 
审计 数据 审计 享 性 AR 。” 私 保护 — du 

CPOR'* Vv x x x x x 一 RSA 
SPDP” m J x x x x 一 RSA 
Ppp" Vv x x x x x — RSA 
PPDP^' Vv x x x Pd NI — DLP 
CL-PDP^9 v x x x x x 一 DLP 
ID-RDP^" v x x x x x 一 DLP 
3P-PDP^€ v x x x x J 一 DLP 
DAP"! Vv Vv Vv x x v = DLP 
IHT-PA'? v vV 一 x x J 一 DLP 
DHT-PA'* vV v v x x v 一 DLP 
MR-PDP^" x x x J x J 一 RSA 
DPDP'^ x Vv x P x x 一 RSA 
BLS-PDP^^ Vv x x ~ x v — DLP 
MF-RDC™! v Vv x J x Vv 一 DLP 
DM-DCE v Vv x Vv x v 一 DLP 
2M-PDPC5] v x v vV x v = DLP 
MHT-PAP* v Vv Ni x x J 一 DLP 
FU-DPA*^? v J/ x x x J re DLP 
DPA-FA™! v J v x x v — DLP 
MuR-DPA™? v v x vV x v — DLP 
TB-PMDDP^? v i x vV x v = DLP 
3P-ASD^" J x x X J x i DLP 
SM-PDP^^ J x x x v x v DLP 
Panda"? Vv Vv v x v x x DLP 
Knox V x x x vV J vV DLP 
Oruta ^? J NA Ni x NA NA ~ DLP 
PBA-PDP“*! Vv x J x ~ v x DLP 


ik. "表示 支持 ;“X? 表 示 不 支持 ;“ 一 ”表示 未 提 及 或 未 涉及 ; RSA 指 Rivest-Shamir-Adleman, 公 钥 加 密 系统 ; 
DLP 指 Discrete Logarithm Problem ,离散 对 数 问题 。( 来 源 : 文献 [82]) 
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云 存储 环境 中 存在 大 量 的 需要 进行 更 新 操作 的 数据 ,因此 一 系列 针对 动态 数据 的 完整 
性 审计 方案 相继 被 提出 K 7-255 列 出 了 几 种 具有 代表 性 的 动态 数据 完整 性 审计 方案 的 性 
能 比较 。 其 中 CSPCCIoud Service Provider) 表 示 云 服务 器 ,DO(CData Owner) 表 示 数 据 拥 有 
者 ,TPA(Third Party Auditor) 表 示 第 三 方 审 计 者 。 


表 7-2 动态 数据 完整 性 审计 方案 性 能 比较 


计算 开销 
审计 方案 通信 开销 X 证 更 新 检 o3 x 
CSP 审计 者 CSP DO/TPA 
DPDP "2 cO(logn) cO(logn) cO(logn) tO (logn) tO (logn) 1=—(1—v)* 


MHT-PA ?9  cOClogn) cO(logn) cO(logn) tOClogn) tO (logn) 1—(1—v) 
FU-DPA "! cO(logn) cO(logn) cOClogn) tOClogn) tO (logn) 1—(1—v) 


DAP“! OC) OC) O(c* s) OG) OG +n) 1—(1—v) 
IHT-PA?? O(c+s) Olc +s) O(c+s) OG) OG +n) 1-ü-vw*'"* 
DHT-PA 9 O(c) OC) Ole +s) OC) OG +n) 1-ü-v* 


MuR-DPA 9 cOtClogw * n) cOClogw * n) cOClogw * 2) tOClogw * n) tOClogw * n) 1—(1—v)* 

注 : "为 文件 的 数据 块 数目 ; s 为 每 个 数据 块 的 分 段 数 ; c 为 审计 的 数据 块 数目 ; v 为 文件 错误 率 ; t 为 更 新 数据 块 
数目 。 对 于 错误 率 为 v 的 文件 ,抽样 审计 < 个 数据 块 (<，* 个 数据 段 ) ,至 少 一 个 数据 块 ( 段 ) 被 检测 到 的 概率 为 1 一 (1 一 
vYO-0—7, ORM: 文献 [82]) 


总 结 已 有 的 研究 成 果 , 现 有 方案 仍然 存在 如 下 一 些 缺 陷 : 大 部 分 方案 基于 公 钥 密码 技 
术 , 所 以 计算 开销 很 大 ,特别 是 数据 量 大 的 时 候 。 针 对 大 数据 应 用 场景 ,作者 认为 应 该 尽量 
减少 计算 开销 大 的 公 钥 密码 算法 。 上 述 批量 完整 性 审计 方案 可 以 极 大 地 减少 计算 和 通信 开 
销 , 但 一 旦 有 数据 出 错 ,定位 出 错 数据 将 成 为 需要 解决 的 一 个 新 问题 。 

随 着 云 计 算 与 云 存储 技术 的 发 展 ,对 数据 完整 性 审计 的 要 求 会 越 来 越 高 ,设计 、 开 发 功 
能 丰富 、 效 率 高 且 非 常安 全 的 数据 完整 性 审计 方法 成 为 迫切 需要 解决 的 问题 。 


7.3 最 新 完整 性 审计 方案 


本 节 将 2017 年 以 来 的 最 新 成 果 进 行 总 结 性 的 介绍 。 

2017 年 以 来 , 云 存 储 环境 下 的 数据 完整 性 审计 方案 又 取得 了 丰硕 的 研究 成 果 。Yan 
等 中 提出 一 种 基于 同 态 Hash 函数 的 支持 动态 数据 更 新 的 PDP 方案 ,通过 引入 一 个 操作 记 
录 表 (Operation Record Table,ORT) 跟 踪 文 件 块 的 操作 实现 动态 数据 更 新 ,可 以 抵抗 伪造 
攻击 (Forgery Attack) .替换 攻击 (Replace Attack) 和 重 放 攻击 (Replay Attack), Yu 407 
提出 一 种 基于 ID 的 PDP 方案 ,使 用 密 钥 同 态 密码 原 语 (Key-Homomorphic Cryptographic 
Primitive) 来 降低 系统 复杂 性 和 PKI 体系 中 建立 和 管理 公 钥 认证 框架 的 开销 。 

Wang 等 "中 提出 一 个 基于 ID 的 审计 方案 ,允许 用 户 授 权 给 一 个 指定 的 代理 者 代表 用 户 
上 传 数据 到 云 存储 服务 器 。 比 如 ,公司 可 以 授权 员工 上 传 文件 到 公司 的 云 账 号 中 。 代 理 通 
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过 可 识别 的 ID 来 进行 认证 和 授权 ,以 减少 复杂 的 证 书 管理 。 该 方案 不 仅 可 以 审计 外 包 的 数 
据 完 整 性 ,还 可 以 审计 数据 来 源 、 类 型 和 文件 的 一 致 性 。Wang 等 中 提出 在 线 /离线 PDP 模 
型 的 形式 化 ,将 数据 处 理 阶 段 分 成 离线 和 在 线 阶 段 , 将 大 部 分 开销 大 的 数据 处 理 计算 放 在 离 
线 阶段 ,在 线 阶段 只 处 理 轻 量 级 的 计算 。 

Yu 等 [ 呆 提 出 一 个 抵抗 密 钥 泄露 的 云 存储 审计 方案 ,可 以 让 一 个 时 间 段 的 密 钥 暴 露 后 ， 
不 影响 其 他 时 间 段 的 审计 。 在 每 个 时 间 段 ,让 第 三 方 审计 者 (Third Party Auditor,TPA) 使 
用 自己 的 保密 密 钥 生成 一 条 更 新 消息 ,然后 发 送 给 客户 端 ,客户 端 基于 私 钥 更 新 他 的 签名 保 
密 密 钥 ,这 样 恶 意 服务 器 在 未 暴露 密 钥 的 时 间 段 就 无 法 获得 该 签名 保密 密 钥 , 从 而 即使 在 某 
个 时 间 段 的 密 钥 被 泄露 ,也 不 会 影响 其 他 时 间 段 的 数据 审计 。Shen 460? 提出 一 个 支持 公 
开 验 证 的 ,批量 审计 和 动态 数据 更 新 的 方案 ,该 方案 提出 一 个 新 的 由 一 个 双 链 接 信息 表 (a 
Doubly Linked Info Table) 和 一 个 位 置 数 组 (Location Array) 组 成 的 动态 结构 ,可 以 极 大 地 
减少 计算 和 通信 开销 。Lin 等 中 提出 两 个 移动 云 计算 环境 下 的 PDP 方案 ,使 用 Merkle 
Hash 树 和 BLS 短 签名 ,支持 动态 数据 更 新 。 

2018 年 ,Fu 4$09 提出 一 个 动态 数据 的 POR 方案 DIPOR ,该 方案 基于 信息 分 散 算法 
(Information Dispersal Algorithm IDA) ,通过 健康 服务 器 上 的 部 分 健康 数据 可 以 恢复 被 破 
坏 的 数据 。He 等 5 提出 一 个 基于 双 线 性 对 的 无 证 书 PDP 方案 ,用 于 基于 云 计算 的 智能 电 
网 中 的 数据 管理 系统 。 

此 外 ,还 有 一 些 只 在 网 络 上 在 线 公 开发 表 的 研究 成 果 。Tian 等 "中 指出 在 云 存 储 环境 下 
进行 数据 完整 性 审计 的 重要 性 ,并 提出 公开 数据 审计 的 架构 与 需要 满足 的 特征 ,然后 对 已 有 
的 研究 工作 给 出 了 一 个 完备 的 综述 ,结合 各 种 审计 目标 与 功能 ,如 隐私 保护 、 动 态 审 计 、 批 审 
计 、 多 副本 审计 和 共享 数据 审计 ,总 结存 在 的 问题 和 以 后 的 发 展 趋势 。 针 对 公共 审计 下 第 三 
方 审计 者 可 能 造成 数据 拥有 者 敏感 信息 泄露 的 问题 , Fu 等 5 提出 一 种 通过 构造 同 态 可 验 
证 群 签名 实现 隐私 感知 的 公开 审计 方法 ,该 方法 要 求 至 少 1 个 群 管理 员 才 能 协作 恢复 密 钥 ， 
因此 降低 了 单 审计 者 滥用 权力 的 风险 。 通 过 设 定 的 二 叉 树 让 群 组 用 户 可 以 跟踪 数据 修改 ， 
当 数 据 块 被 破坏 时 ,可 以 恢复 最 新 的 正确 版 本 。 

针对 现 有 的 数据 审计 方案 中 复杂 的 密 钥 管理 问题 ,Li 等 "引入 基于 ID 的 模糊 审计 ,用 
户 的 ID 被 认为 是 一 个 可 以 描述 的 属性 集合 ,使 用 生物 特征 作为 模糊 ID, 每 个 ID 绑 定 一 个 
私 钥 用 于 验证 其 他 用 户 响 应 数据 的 正确 性 。 针 对 大 部 分 的 PDP 方案 基于 传统 的 公 钥 基础 
设施 (Public Key Infrastructure. PKD ,有 比较 大 的 证 书 管理 开销 ,所 以 基于 ID 的 密码 算法 
(Identity-based Cryptography. IBO WH F PDP 方案 中 。 但 IBC 方案 存在 密 钥 托管 (key 
escrow) 问 题 , 因 此 ,Li 等 "提出 使 用 无 证 书签 名 技术 来 检查 群 组 之 间 共 享 数据 的 完整 性 。 
在 该 方案 中 , 密 钥 包 括 两 个 部 分 : 一 部 分 密 钥 由 群 组 管理 员 生 成 ,一 部 分 密 钥 由 用 户 自 己 选 
择 。 为 保证 用 户 公 钥 的 正确 性 ,每 个 用 户 的 公 钥 与 其 唯一 ID 关联 ,比如 电话 号 码 等 ,因此 ， 
不 需要 证 书 并 且 没 有 密 钥 托管 问题 。 所 提 的 方案 支持 有 效 的 用 户 撤销 。 

Rao 等 [外 提 出 一 个 动态 数据 的 审计 方案 ,可 以 防止 不 可 信服 务 器 和 审计 者 的 合谋 攻 
击 。 该 方案 基于 叶子 认证 批 处 理 的 Merkle 哈 希 树 (batch-leaves-authenticated Merkle 
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Hash Tree) ,可 以 批量 验证 多 个 叶子 节点 和 它们 的 索引 。 相 比 于 传统 的 Merkle 哈 希 树 逐 
个 叶子 节点 验证 ,该 方法 更 适用 于 动态 数据 更 新 。 在 已 有 的 支持 用 户 撤销 的 PDP 方案 中 ， 
用 户 撤 销 的 计算 开销 与 该 用 户 持 有 的 文件 块 总 数 呈 线性 增长 。 为 了 解决 这 个 问题 ,Zhang 
等 中 提出 一 个 基于 ID 的 支持 用 户 撤销 的 PDP 方案 ,让 用 户 撤销 与 用 户 持 有 的 文件 块 数 无 
关 。 该 方案 使 用 一 种 新 的 密 钥 生成 和 私 钥 更 新 技术 ,在 撤销 用 户 时 ,只 需要 更 新 非 撤销 群 组 
用 户 的 私 钥 。Nayak 等 "提出 一 个 支持 隐私 保护 的 PDP 方案 ,该 方案 支持 多 数据 拥有 者 、 
动态 数据 更 新 和 批量 验证 。 


7.4 未 来 发 展 方向 


自从 第 一 个 远程 数据 的 完整 性 审计 方案 提出 以 来 ,经 历 了 十 几 年 的 发 展 ,同时 伴随 着 云 
存储 技术 的 快速 发 展 , 云 存储 环境 下 的 数据 完整 性 审计 得 到 了 充分 的 重视 ,并 取得 了 丰硕 的 
研究 成 果 。 但 是 , 随 着 云 存 储 技术 的 进一步 发 展 和 研究 工作 的 不 断 深 入 ,将 来 云 存 储 环 境 下 
的 数据 完整 性 审计 研究 工作 仍然 面临 一 些 新 的 挑战 和 有 待 进一步 探索 的 问题 3。 

1. 公开 验证 时 密 钥 管 理 与 第 三 方 审计 者 的 信任 问题 

考虑 到 外 包 数 据 的 大 容量 和 用 户 端 有 限 的 计算 资源 ,用 户 通常 可 能 无 法 承担 繁琐 的 验 
证 工作 ,需要 将 审计 工作 委托 给 可 信 第 三 方 审计 者 (Third Party Auditor,TPA) 执 行 。 但 是 
每 当 TPA 要 执行 审计 任务 时 ,都 需要 与 数字 证 书 认 证 机 构 (Certificate Authority,CA) 通 信 
以 完成 对 用 户 身 份 的 认证 。 当 用 户 数 量 很 大 时 ,TPA 需要 管理 大 量 的 与 用 户 认 证 相关 的 密 
钥 ,造成 很 大 的 密 钥 管理 开销 。 因 此 , 自 2017 年 以 来 的 最 新 方案 中 ,有 不 少 针 对 密 钥 管理 问 
题 提 出 的 方案 ,采用 基于 ID 的 身份 密码 技术 结合 无 证 书 认 证 ,来 简化 大 量 用 户 带 来 的 密 钥 
管理 。 

另外 ,引入 第 三 方 审计 者 ,认为 该 可 信 第 三 方 会 提供 可 靠 的 验证 结果 , 却 忽略 了 在 实际 
的 云 存 储 环境 中 是 否 能 够 找到 这 样 一 个 可 信 实 体 的 问题 。 在 实际 的 开放 的 云 存 储 环 境 中 ， 
并 不 存在 绝对 可 靠 的 数据 验证 者 ,他 们 可 能 因为 利益 或 其 他 原因 给 数据 验证 结果 的 准确 性 
和 可 靠 性 带 来 威胁 。 这 样 在 需求 与 现实 之 间 存 在 矛盾 ,怎样 解决 这 样 的 信任 问题 也 是 需要 
探索 的 问题 。 

2. 细 粒 度 的 动态 数据 完整 性 审计 

数据 更 新 操作 主要 包括 数据 的 修改 、 插 入 、 添 加 、 删 除 。 动 态 数 据 更 新 对 于 存储 服务 是 
一 项 非常 重要 的 特征 , 它 将 决定 用 户 是 否 选 择 使 用 该 服务 。 现 有 的 动态 数据 审计 方案 都 是 
以 数据 块 为 更 新 粒度 , 即 所 有 的 增加 、 删 除 操作 都 必须 以 数据 块 为 最 小 单位 。 在 实际 应 用 
中 ,存在 许多 频繁 而 数据 量 很 小 的 更 新 。 如 果 对 分 块 大 小 为 1MB 的 文件 做 n 次 数据 增加 
操作 ,每 次 操作 所 增加 数据 大 小 均 为 1KB, 但 由 于 以 数据 块 为 最 小 更 新 粒度 ,增加 nn KB 的 
数据 将 需要 插入 n MB 的 数据 ,这 显然 是 极其 低 效 的 。 因 此 ,未 来 还 需 进 一 步 研究 支持 细 粒 
度 更 新 的 数据 完整 性 审计 方案 。 
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3. 多 副本 /批量 审计 中 错误 定位 问题 

针对 多 个 用 户 审计 请 求 和 多 个 副本 进行 批量 审计 操作 是 提高 审计 效率 的 有 效 方式 。 然 
而 ,此 种 操作 方式 的 优势 仅 在 所 有 用 户 数据 或 多 副本 数据 都 正确 且 完 整 的 情况 下 才能 体现 ， 
而 一 旦 审计 不 通过 , 即 存 在 用 户 数据 或 副本 数据 出 错时 ,这 种 操作 方式 将 无 法 定位 出 错 的 用 
户 文件 或 副本 文件 。 当 然 , 转 而 对 各 用 户 的 请 求 或 多 副本 文件 逐一 进行 审计 ,是 最 简单 和 直 
接 的 方式 ,但 是 其 效率 显然 是 相当 低下 的 。 此 外 ,文献 [24] 中 曾 设想 通过 “二 分 查找 ”的 方式 
进行 定位 , 虽 未 实现 ,但 是 不 难 想见 该 方式 的 查找 过 程 中 将 涉及 大 量 审计 信息 的 多 次 聚合 和 
验证 操作 , 仍 会 给 云 服务 器 和 TPA 带 来 较 大 的 通信 和 计算 开销 。 因 此 ,如 何 快速 准确 地 
定位 出 错 的 用 户 文件 (或 副本 文件 ) 仍 是 批量 审计 (多 副本 审计 ) 中 一 个 尚 待 解决 的 开放 
问题 。 

4. 高 效 的 多 媒体 数据 审计 

图 像 .音频 与 视频 等 多 媒体 数据 占用 空间 较 大 ,是 被 上 传 至 云 服 务 器 的 常见 数据 类 型 之 
一 。 由 于 此 类 数据 在 生成 后 一 般 不 作 修 改 ,可 以 看 作 是 静态 数据 。 因 为 此 类 多 媒体 数据 量 
大 ,如 果 采 用 现 有 的 静态 数据 的 完整 性 审计 方法 ,需要 生成 大 量 的 同 态 标签 ,将 有 大 量 的 计 
算 开销 ,因此 并 不 是 最 有 效 的 方法 。 针 对 多 媒体 数据 的 特征 ,可 以 利用 可 逆 透 明 水 印 来 实现 
高 效 审计 。 通 过 将 水 印 戏 入 图 像 .音频 或 视频 中 作为 审计 证 据 , 代 替 现 有 的 基于 同 态 标签 技 
术 的 审计 方案 ,解决 标签 计算 量 、 存 储量 过 大 的 问题 。 当 然 , 在 不 影响 数据 完整 性 的 前 提 下 ， 
如 何 提取 作为 审计 证 据 庶 入 的 水 印 并 进行 高 效 的 验证 是 需要 深入 研究 的 重要 问题 。 

5. 在 新 型 计算 体系 下 设计 更 安全 的 审计 方案 

在 量子 计算 模型 下 ,大 数 分 解 、 离 散 对 数 等 计算 难题 都 能 在 亚 指数 时 间 复 杂 度 内 完成 ， 
使 得 基于 这 些 困 难 问题 的 安全 模型 将 不 再 安全 。 因 此 ,在 云 存 储 环境 下 构造 新 型 计算 体系 
下 安全 的 数据 完整 性 审计 方法 是 面临 的 一 个 严峻 问题 。 

6. 完整 性 审计 方案 效率 与 扩展 性 

云 存 储 服务 中 高 效 且 安 全 的 数据 完整 性 审计 与 恢复 方案 的 设计 ,一 方面 要 提高 数据 审 
计 的 计算 ,通信 、 存 储 效率 ; 另 一 方面 要 提高 检测 效率 ,以 高 概率 和 高 精度 检测 到 错误 并 实 
现 数据 恢复 。 同 时 ,也 要 提供 服务 质量 保证 。 一 方面 要 提供 不 同 质量 的 服务 ; 另 一 方面 要 
让 用 户 可 以 利用 性 能 跟踪 工具 以 及 多 副本 协议 等 来 评价 服务 提供 者 的 质量 ,以 达到 服务 器 
声称 的 性 能 及 质量 。 比 如 ,声称 数据 带宽 为 100KB/s, 就 应 该 达到 100KB/s; 如 果 声 称 是 t 
份 副 本 , 则 确实 拥有 + 份 副本 。 


7.5 ”本 章 小 结 
本 章 首 先 对 云 存储 环境 下 数据 完整 性 审计 进行 概述 ,从 问题 的 起 源 .完整 性 审计 方案 分 


类 和 审计 目标 讲 起 ,然后 介绍 数据 审计 的 发 展现 状 , 进 一 步 详 细 介绍 了 最 新 的 完整 性 审计 方 
案 ,最 后 总 结 以 上 工作 ,提出 完整 性 审计 的 未 来 发 展 方向 。 
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云 存储 数据 备份 与 恢复 


云 存 储 服务 最 大 的 优势 之 一 ,就 是 数据 的 可 用 性 和 可 靠 性 能 够 得 到 保障 。 这 是 因为 云 
存储 服务 提供 商 可 以 为 用 户 提供 最 好 的 容 灾 备 份 方案 ,在 各 种 灾难 、 系 统 故障 和 安全 事故 
中 ,都 可 以 保证 用 户 数据 的 可 用 性 和 可 靠 性 ; 而 且 在 实际 应 用 中 ,数据 备份 系统 还 可 以 提供 
并 行 读 写 , 从 而 提高 数据 访问 效率 。 

本 章 将 对 云 存储 服务 中 的 数据 备份 与 恢复 技术 进行 介绍 ,包括 数据 备份 系统 分 类 、 性 能 
指标 、 纠 删 码 技术 原理 与 发 展 、 几 种 备份 技术 对 比 以 及 数据 恢复 技术 ,最 后 给 出 一 个 基于 喷 
泉 码 的 数据 备份 系统 的 备份 .检测 与 恢复 数据 的 实例 。 


8.1 数据 备份 与 恢复 概述 


日 益 增 长 的 数据 规模 对 构建 良好 的 存储 系统 提出 了 重大 挑战 , 既 能 提供 极 高 的 数据 存 
取 性 能 又 要 保障 良好 的 可 扩展 性 ,甚至 在 自然 灾害 等 各 类 危害 面前 ,仍然 能 保证 系统 的 可 用 
性 和 可 靠 性 ,还 要 尽 可 能 地 节省 成 本 。 

传统 的 基于 RAID(Redundant Array of Independent Disks, 独 立 磁盘 元 余 阵 列 ) 的 
DAS(Direct Attached Storage, 直 连 式 存储 ) 或 基于 SAN(Storage Area Network ,存储 区 域 
网 络 ) 的 网 络 存 储 系 统 等 都 无 法 同时 满足 大 数据 存储 在 性 能 、 可 扩展 性 、 可 用 性 、 可 靠 性 \ 经 
济 成 本 等 方面 的 要 求 。 而 由 专业 技术 人 员 管 理 的 云 存储 可 以 满足 以 上 所 有 要 求 ,但 数据 的 
可 用 性 和 可 靠 性 需要 通过 数据 备份 与 恢复 技术 来 实现 。 

一 方面 , 云 存储 服务 提供 商 需 要 建设 跨 地 域 的 存储 备份 服务 器 ,以 实现 在 磁盘 故障 或 者 
天 灾 等 意外 和 灾难 发 生 的 时 候 , 最 小 化 灾难 和 意外 带 来 的 影响 ,通过 数据 恢复 等 手段 使 用 户 
能 够 不 受 影响 地 使 用 数据 服务 ; 另 一 方面 ,由 于 云 存储 中 海量 的 数据 以 及 大 量 的 存储 设备 ， 
云 存储 系统 中 往往 包含 成 千 上 万 的 存储 节点 ,庞大 的 节点 数量 使 得 节点 失效 成 为 常态 ,因此 
需要 保证 在 部 分 存储 节点 失效 的 情况 下 ,用 户 仍 然 能 够 正常 地 访问 数据 。 

本 节 将 对 数据 备份 与 恢复 技术 做 一 概述 ,主要 介绍 备份 系统 的 分 类 和 性 能 指标 。 


8.1.1 备份 系统 分 类 
为 了 提高 云 存 储 系统 的 可 用 性 和 可 靠 性 ,常用 的 数据 容错 与 备份 方案 有 两 种 。 
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CD 为 一 个 数据 对 象 创建 若干 个 副本 。 

(2) 以 编码 的 形式 提供 一 些 元 余数 据 。 

因此 , 云 存储 的 备份 系统 可 以 分 为 基于 多 副本 和 基于 纠 删 码 两 类 。 

1. 基于 多 副本 的 云 存 储备 份 方案 

基于 多 副本 (Multi-copy based) 的 备份 方案 通过 将 数据 存储 为 多 个 副本 来 确保 用 户 数 
据 的 可 用 性 和 可 靠 性 。 这 种 方案 简单 直观 且 易 于 实现 和 部 署 ,在 实际 中 也 得 到 了 广泛 的 应 
用 ,如 Google 文件 系统 (Google File System, GFS)™ 和 Hadoop 的 分 布 式 文件 系统 (Hadoop 
Distributed File System,HDFS)C 习 都 采用 了 基于 多 副本 的 备份 技术 。 不 过 ,因为 需要 为 每 
个 数据 对 象 创建 若干 同样 大 小 的 副本 ,需要 的 存储 空间 开销 比较 大 。 

2. 基于 纠 删 码 的 云 存储 备份 方案 

基于 纠 删 码 (Erasure Code based) 是 一 种 基于 编码 的 容错 技术 ,最 早 应 用 在 通信 和 领域 
中 ,用 于 解决 数据 在 传输 中 易于 损耗 的 问题 。 纠 删 码 的 基本 原理 是 把 传输 的 信号 分 段 ,然后 
加 入 一 定 的 校 验 信息 ,让 分 段 的 信息 之 间 产 生 关 联 。 如 果 在 传输 过 程 中 部 分 信号 失效 ,接收 
端 仍 能 通过 计算 恢复 出 原始 信号 。 

按照 元 余 码 的 功能 ,基于 编码 的 容错 技术 可 以 分 为 检 错 、 纠 错 和 纠 删 3 种 类 型 。 其 中 检 
错 码 仅 具 备 识别 错误 码 的 功能 ,而 无 纠正 错误 码 的 功能 ; 纠 错 码 不 仅 能 识别 错误 码 , 同 时 可 
以 纠正 错误 码 ; 纠 删 码 则 不 仅 可 以 识别 、 纠 正 错误 码 , 而 且 当 错误 码 超过 纠正 范围 时 ,还 可 
把 无 法 纠 错 的 数据 删除 。 

目前 , 纠 删 码 技术 在 分 布 式 存储 系统 中 的 应 用 主要 有 : 阵列 纠 删 码 (Array Code), 如 
RAID 5,RAID 6 等 ,里 德 -所 罗 门 (Reed-Solomon,RS) 类 纠 删 码 , 低 密度 奇偶 校 验 码 (Low 
Density Parity Check Code. LDPC) ,循环 元 余 校 验 码 (Cyclic Redundancy Check, CRC) , 卷 
积 码 (Convolution Code) 以 及 数字 喷泉 码 (Digital Fountain Code) 等 。 

基于 纠 删 码 的 备份 方案 通过 对 数据 对 象 进行 编码 ,将 多 个 数据 块 的 信息 融合 到 较 少 的 
元 余 信息 中 ,因此 可 以 有 效 地 节省 存储 空间 。 但 是 基于 纠 删 码 的 备份 技术 在 读 写 数据 时 需 
要 分 别 进行 编码 和 解码 操作 ,有 一 些 额 外 的 计算 开销 。 

在 基于 纠 删 码 的 备份 技术 中 ,有 一 种 新 的 基于 再 生 码 (Regenerating Code based) 的 备 
份 方案 。 基 于 再 生 码 的 备份 方案 也 是 基于 网 络 编码 理论 ,是 一 种 改进 的 纠 删 码 , 它 可 以 有 效 
地 减少 修复 带宽 ,并 具有 更 好 的 安全 性 ,因此 得 到 了 广泛 的 研究 和 应 用 。 

备份 的 目的 是 当 数 据 失效 后 ,能 够 高 效 地 恢复 出 原始 数据 。 两 类 备份 技术 各 有 利 浆 , 其 
中 基于 多 副本 的 备份 技术 只 需要 从 其 他 副本 下 载 同样 大 小 的 数据 即 可 进行 修复 ; 基于 纠 删 
码 的 备份 技术 则 需要 对 数据 进行 修复 操作 ,利用 宛 余 的 编码 块 从 已 经 被 破坏 的 数据 中 恢复 
原始 数据 。 


8.1.2 性 能 指标 


云 存储 服务 要 得 到 广泛 的 应 用 ,就 必须 设计 良好 的 容 灾 备 份 系统 ,从 而 可 以 在 磁盘 故障 
或 自然 灾害 等 意外 和 灾难 发 生 的 时 候 , 能 够 通过 自身 的 一 些 特殊 机 制 ,最 小 化 灾难 和 意外 带 
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来 的 影响 ,通过 数据 恢复 等 手段 保障 用 户 数据 的 可 用 性 和 可 靠 性 。 

对 于 不 同 的 数据 备份 与 恢复 技术 ,都 需要 考虑 到 存储 开销 、 计 算 效 率 、 容 错 率 、 修 复 开销 
等 因素 。 通 常 包括 以 下 性 能 指标 。 
存储 利用 率 : 备份 系统 的 存储 利用 率 是 指 原始 数据 量 与 实际 存储 的 数据 量 之 比 , 用 
于 评估 一 个 方案 的 额外 存储 开销 。 
计算 效率 : 因为 基于 多 副本 的 备份 技术 只 需要 下 载 一 份 副本 就 可 以 恢复 数据 ,需要 
的 计算 量 很 小 ,所 以 计算 效率 通常 用 于 评估 纠 删 码 ,包括 编码 .更 新 和 解码 三 方面 计 
算 开 销 。 
容错 率 : 可 以 容忍 的 最 多 出 错 条 块 数 。 假 设 容错 率 为 , 则 当 任 意 不 多 于 个 条 块 
出 错时 ,可 以 通过 重 构 算法 恢复 出 所 有 出 错 的 条 块 ; 但 如 果 出 错 的 条 块 数 大 于 , 则 
将 无 法 恢复 出 所 有 出 错 的 条 块 。 
修复 开销 : 是 指 当 数 据 发 生 错误 时 ,系统 能 正确 恢复 出 原始 数据 的 开销 。 在 基于 纠 
删 码 的 备份 技术 中 ,是 指 利用 编码 的 元 余数 据 从 未 出 错 的 数据 块 恢复 出 所 有 数据 的 
开销 。 将 修复 一 个 失效 块 平均 所 需 下 载 的 数据 量 与 块 大 小 之 比 称 为 单 块 修复 开销 ， 
通常 采用 单 块 修复 开销 来 衡量 纠 删 码 的 数据 修复 开销 。 单 块 修复 开销 只 是 在 一 定 
程度 上 反映 了 纠 删 码 数据 修复 的 开销 ,但 无 法 反映 整个 系统 数据 修复 的 总 体 开 销 。 
数据 更 新 效率 : 当 需 要 对 数据 进行 更 新 时 ,两 类 备份 技术 均 需 要 重新 进行 备份 操 
作 。 使 用 纠 删 码 时 ,需要 对 更 新 后 的 数据 进行 编码 操作 ,因此 更 新 效率 是 基于 纠 删 
码 的 备份 技术 的 一 项 重要 指标 。 

在 云 存 储 中 ,对 于 基于 纠 删 码 的 备份 技术 主要 考虑 存储 利用 率 、 容 错 率 和 修复 开销 三 个 
方面 ,但 这 三 个 方面 相互 制约 ,要 提升 其 中 一 个 方面 .会 影响 到 其 余 两 个 方面 。 因 此 ,需要 在 
这 些 要 素 之 间 进 行 权 衡 选 择 ,取得 一 个 平衡 的 方案 。 不 同 元 余 度 的 纠 删 码 具 有 不 同 的 存储 
利用 率 , 在 原始 数据 量 相同 的 情况 下 ,系统 采用 不 同 的 纠 删 码 ,其 实际 存储 的 数据 量 是 不 同 
的 ,从 而 导致 数据 修复 的 总 体 开 销 也 不 同 。 因 为 容错 能 力 是 容错 系统 的 基本 要 求 , 现 有 研究 
基本 都 是 在 保持 容错 能 力 的 前 提 下 ,在 存储 利用 率 和 数据 修复 开销 之 间 进 行 权 衡 。 基 于 再 
生 码 的 备份 与 恢复 技术 能 够 实现 在 一 定 存储 利用 率 下 修复 数据 时 需要 下 载 的 数据 量 的 下 
界 , 因 此 得 到 广泛 关注 与 研究 。 

在 一 些 应 用 中 ,数据 对 象 及 其 副本 或 者 元 余数 据 分 布 在 数据 中 心 的 不 同 节 点 上 ,因此 数 
据 的 读 写 效 率 和 可 靠 性 还 与 数据 中 心 的 节点 结构 紧密 相关 。 在 某 些 特殊 应 用 场景 中 ,还 需 
要 考虑 应 用 服务 器 和 备 援 服务 器 之 间 的 距离 .数据 传输 方式 、 容 灾 系 统 的 恢复 时 间 目 标 
(Recovery Time Objective, RTO) 等 。 


8.2 纠 删 码 技术 


纠 删 码 是 数据 容错 与 备份 的 一 项 关键 技术 ,本 节 将 对 其 原理 和 发 展 做 一 简介 ,为 后 文学 
习 基 于 纠 删 码 的 备份 技术 做 好 铺垫。 
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8.2.1 纠 删 码 原理 


采用 纠 删 码 进 行 容错 时 ,首先 要 把 待 存 储 的 数据 对 象 分 割 成 若干 大 小 相等 的 数据 块 , 然 
后 对 这 些 数据 块 进行 编码 ,得 到 一 些 编码 块 , 读 取 数 据 时 只 要 获得 任意 足够 数量 的 编码 块 ， 
就 可 以 解码 得 到 原始 数据 。 

用 上 表示 编码 前 数据 块 的 个 数 ,n 表示 编码 后 的 数据 块 个 数 , 即 数据 块 和 宛 余 块 的 总 
数 ,2 表示 每 个 数据 块 包含 的 比特 数 ,k' 是 一 个 不 小 于 的 整数 ,表示 要 获取 的 数据 块 的 最 
少数 目 , 则 定义 纠 删 码 为 一 个 四 元 组 (n.k,5,k')。 这 个 定义 表示 通过 纠 删 码 编码 以 后 ,用 
户 在 获得 编码 后 的 任意 &' 个 文件 块 都 可 以 解码 还 原 原 始 数据 。 这 个 定义 可 简化 表示 为 (n， 
Esk he 

WMR— Cn ksk’) ATE E k= he", D EK E D RE HA A ET 4) (Maximum 
Distance Separable,MDS) 性 质 ,也 称 该 纠 删 码 为 MDS 码 , 可 以 用 更 简单 的 二 元 组 (n,k) 来 
表示 。MDS 码 在 相同 的 容错 能 力 下 拥有 最 小 的 存储 空间 开销 。 

纠 删 码 的 基本 原理 就 是 : 在 数据 块 与 校 验 块 或 元 余 块 之 间 通 过 一 定 的 编码 方式 建立 联 
系 , 当 部 分 编码 后 的 数据 块 失 效 时 ,利用 这 些 宛 余 的 校 验 块 , 经 过 一 定 的 解码 或 修复 操作 ,可 
以 恢复 出 原始 数据 。 

关于 纠 删 码 的 研究 工作 已 经 非常 丰富 ,为 了 提高 编码 算法 的 容错 能 力 , 同 时 降低 编码 复 
杂 度 ,人 研究 者 们 提出 了 很 多 编码 方法 。 根 据 编码 方式 的 不 同 ,这 些 方法 可 以 分 为 里 德 -所 罗 
门 (Reed-Solomon,RS) 码 、 低 密度 奇偶 校 验 码 (Low Density Parity Check Code, LDPC) , fff 
RICA BEETS (Cyclic Redundancy Check,CRC) , 42 #484 (Convolution Code) 以 及 数字 喷泉 
#5 (Digital Fountain Code) $, 

虽然 在 拥有 相同 容错 能 力 的 前 提 下 ,基于 纠 删 码 的 备份 技术 的 存储 利用 率 更 高 ,但 是 当 
数据 块 失效 以 后 ,基于 多 副本 的 备份 技术 只 需 下 载 一 块 同样 大 小 的 数据 就 可 以 完成 修复 过 
程 , 而 基于 纠 删 码 的 备份 技术 则 需要 下 载 至 少 & 个 同样 大 小 的 数据 块 才能 解码 恢复 原始 数 
据 。 因 此 ,基于 纠 删 码 的 备份 技术 将 占用 更 多 的 网 络 带宽 资源 ,这 样 会 给 带宽 资源 比较 受 限 
的 数据 中 心 带 来 较 大 的 负担 。 同 时 , 读 取 数 据 的 开销 也 比较 大 ,从 而 限制 了 基于 纠 删 码 的 备 
份 技术 的 应 用 和 推广 。 因 此 ,降低 基于 纠 删 码 的 备份 技术 的 带宽 修复 成 本 ,成 为 目前 研究 的 
一 个 重要 问题 。 


8.2.2 4 Ay Ae 


纠 删 码 最 早 是 被 用 来 纠正 通信 过 程 中 的 错误 信息 。 纠 删 码 被 应 用 于 数字 通信 的 历史 可 
追溯 到 20 世纪 中 叶 ,然而 经 过 多 年 的 发 展 逐 渐 接近 信道 容量 理论 的 极限 ,同时 由 纯粹 的 离 
散 信道 编码 理论 向 物理 信道 与 软 译 码 技术 的 趋势 转变 。 

纠 删 码 种 类 很 多 ,根据 编码 方式 ,主要 包括 以 下 几 类 : 里 德 -所 罗 门 码 、 低 密度 奇偶 校 验 
码 ,循环 元 余 校 验 码 . 卷 积 码 以 及 数字 喷泉 码 等 。 

以 上 纠 删 码 技术 基本 都 是 将 原始 数据 分 块 , 然 后 采用 一 定 的 编码 技术 ,将 校 验 块 或 元 余 
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块 与 原始 数据 块 进行 处 理 , 得 到 编码 后 的 数据 块 。 

奇偶 校 验 码 中 的 分 组 码 是 一 类 相对 比较 简单 的 纠 删 码 , 一 个 (n,k) 分 组 码 是 把 信息 划 
分 成 & 个 码 元 为 一 组 ( 称 为 信息 组 ), 以 码 组 规则 增加 pr n — k 个 校 验 元 ,通过 编码 器 生成 
长 度 为 个 码 元 的 一 组 : (Co ,Ci C, 2C, aD ,作为 (2) 线 性 分 组 码 的 一 个 码 字 ( 码 
ATR). q 进 制 下 ,包含 & 位 信息 位 的 码 字 共有 g* 个 信息 组 合 ,因此 通过 编码 器 编码 后 
的 码 字 能 够 达到 gq* 。 这 个 集合 为 (n ,k) 分 组 码 ,长 度 为 n 的 序列 的 可 能 排列 总 共有 g" 种 ， 
而 (n,k) 分 组 码 中 的 信息 组 合 只 有 q^ 个 ,因此 分 组 码 的 编码 问题 就 是 根据 一 定 的 规则 从 qg” 
个 码 组 集中 选 出 和 个 码 字 。 将 选取 的 % 个 码 字 的 集合 称 为 可 用 码 组 ,其 余 的 g" 一 g* 个 为 
SATS. R=k/n 称 为 码 率 ,表示 (zz ,k) 分 组 码 中 信息 位 在 码 字 中 的 比重 ,因此 R 是 衡量 
分 组 码 有 效 性 的 一 个 基本 参数 。 分 组 码 中 任意 两 个 码 元 C, ,C; 之 间 对 应 位 取 值 不 同 的 个 
数 , 则 称 为 两 码 元 之 间 的 汉 明 距离 4 , 码 元 C 中 非 零 码 元 个 数 则 称 为 汉 明 重量 。 分 组 码 分 为 
线性 分 组 码 与 非 线 性 分 组 码 。 在 线性 分 组 码 中 ,任意 两 个 码 元 C, C, 的 线性 组 合 仍然 是 集 
合 中 的 码 字 。 

1948 年 ,现代 “信息 论 之 父 ? 香 农 发 表 了 《通信 的 数据 理论 》(A Mathematical Theory 
of Communication) ,开创 了 信息 与 编码 理论 这 一 新 的 学 科 。 根 据 香农 定理 ,要 想 在 一 个 
带宽 确定 而 存在 噪音 的 信道 里 可 靠 地 传送 信号 ,只 有 两 种 途径 : 一 种 是 加 大 信 噪 比 , 另 一 
种 是 在 信号 编码 中 加 入 宛 余 纠 错 码 。 虽 然 香 农 指出 了 可 以 通过 差错 控制 编码 在 信息 传 
输 速率 不 大 于 信道 容量 的 前 提 下 实现 可 靠 通信 ,但 是 却 没 有 给 出 具体 的 实现 差错 控制 编 
码 的 方法 。 

1949 年 , 汉 明 (Hamming) 和 格雷 (Golay) 提 出 了 第 一 个 实用 的 差错 控制 编码 方案 5 。 
Hamming 将 输入 数据 的 每 4 个 比特 分 为 一 组 ,然后 通过 计算 这 些 信息 比特 的 线性 组 合 来 得 
到 3 个 校 验 比特 ,并 将 得 到 的 7 个 比特 信息 输入 计算 机 。 计 算 机 按照 一 定 的 规则 读 取 这 些 
码 字 ,通过 一 定 的 解码 算法 ,不 仅 能 够 检测 到 是 否 有 错误 发 生 ,还 可 以 找到 单个 比特 发 生 错 
误 时 的 比特 所 在 位 置 。 因 此 ,该 编码 方法 可 以 纠正 7 个 比特 中 的 单个 比特 错误 。 该 编码 方 
法 也 称 为 Hamming( 汉 明 ) 码 加 。 汉 明码 的 编码 效率 比较 低 ,每 4 个 比特 编码 就 需要 3 个 比 
特 的 元 余 校 验 比 特 , 而 且 只 能 纠正 单个 比特 错误 。 格 雷 (Golay) 针 对 汉 明 码 存在 的 缺点 , 提 
出 了 Golay #3), Golay 码 分 为 二 元 Golay 码 和 三 元 Golay 码 , 二 元 Golay 码 将 信息 比特 的 
每 12 位 分 为 一 组 ,编码 生成 11 个 宛 余 校 验 比特 ,相应 的 解码 算法 可 以 纠正 3 个 比特 错误 。 
三 元 Golay 码 的 操作 对 象 是 三 元 而 非 二 元 数字 , 它 将 每 6 个 三 元 符号 分 为 一 组 ,编码 生成 5 
个 元 余 校 验 三 元 符号 ,这 个 由 11 个 三 元 符号 组 成 的 三 元 码 的 码 字 就 可 以 纠正 2 个 三 元 符号 
的 错误 。 

1954 年 ,里 德 (Reed) RITE GI + EH (Thomas Muller) 提 出 Reed-Muller 码 ,简称 RM 
1957, HEL Hamming 码 和 Golay 码 ,RM 码 在 码 字 长 度 方面 更 加 高 效 ,其 纠 错 能 力 更 强 ， 
而 且 具 有 更 大 的 参数 选择 范围 。 

AE X3 010 也 是 一 类 重要 的 线性 分 组 码 , 它 是 从 多 项 式 环 与 有 限 域 发 展 而 来 。 循 环 码 具 
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有 循环 移 位 特性 , 即 码 字 比特 经 过 循环 移 位 后 仍然 是 码 字 集 合 中 的 码 字 。 这 种 循环 结构 使 
码 字 的 设计 范围 大 大 增加 ,同时 简化 了 编 解码 结构 。 循 环 码 既 可 以 采用 多 项 式 表示 ,也 可 以 
采用 矩阵 表示 。 循 环 码 也 称 循环 元 余 校 验 码 (Cyclic Redundancy Check, CRC), 

Bose, Chaudhuri" fl Hocquenghem” 4} 9i] F 1960 年 和 1959 年 提出 了 BCH 码 (Bose 
Chaudhuri Hocquenghem Code. BCH). BCH 码 的 码 字 长 度 为 n= 二 g" 一 1, 当 gg 二 2 时 BCH 
码 的 纠 错 能 力 存在 如 下 界限 : 1 二 (2” 一 1)/2。 

1960 年 ,里 德 (Reed) 和 索 罗 门 (Solomon) 将 BCH $5 A q — 2 扩展 到 了 任意 值 而 得 到 
RS 码 (Reed-Solomon Code. RS)? 。RS 码 能 够 纠正 q 进 制 编码 中 的 错误 。RS 类 纠 删 码 
是 一 种 线性 分 组 循环 宛 余 码 ,其 编码 及 解码 主要 是 采用 范 德 蒙 矩 阵 (Vandermonde Matrix) 
3k fi] PG 4B PE (Cauchy Matrix) 构 造 , 故 称 之 为 范 德 蒙 码 (Vandermonde Code) 和 柯 西 码 
(Cauchy Code) ,其 对 应 的 解码 算法 有 伯 利 坎 普 - 梅 西 算法 (Berlekamp-Massey Algorithm) 
和 韦 尔 奇 - 伯 利 坎 普 算法 (Welch-Berlekamp Algorithm)。 

在 RS 码 中 ,通常 编码 符号 的 长 度 为 8bits 或 8bits 的 倍数 ,这 样 设计 是 为 了 便于 同 计算 
机 内 的 字 长 进行 互相 转换 。 假 设 一 个 长 度 为 N 的 RS 码 数据 包 中 包含 I 个 信息 符号 .P 个 
校正 符号 ,那么 通过 RS 码 的 解码 处 理 可 以 纠正 数据 包 内 工 个 信息 符号 中 的 上 一 P/2 个 错 
yes 如 果 知 道 错 误 位 置 , 则 可 纠正 P 个 错误 。 与 传统 的 阵列 码 相 比 ,RS 码 可 在 较 小 宛 余 的 
情况 下 恢复 更 多 的 数据 。 但 是 因为 RS 码 中 的 基于 范 德 蒙 矩 阵 的 Vandermonde RS Code 
和 基于 柯 西 矩阵 的 Cauchy RS Code 均 涉 及 伽 罗 华 域 (Galois Field, GF) ,需要 的 矩阵 运算 强 
度 大 ,特别 是 矩阵 求 逆 运 算 ,因此 编 解 码 速度 较 慢 。 

1955 年 , 伊 莱 亚 斯 (Elias) 提 出 卷 积 码 55 。 与 分 组 码 不 同 的 是 , 卷 积 码 的 校 验 位 不 仅 与 
当前 信息 有 关 , 还 与 之 前 的 信息 相关 ,因此 各 码 组 之 间 的 信息 存在 相关 性 。 在 卷 积 码 解码 过 
程 中 ,不 仅 需 要 此 刻 接收 到 的 码 字 ,还 要 结合 hy 个 与 该 码 字 相关 的 码 字 才能 译 出 一 个 子 码 
[HOCH exu ,其 中 表示 该 码 字 中 的 信息 位 。Nus 一 As 十 1 为 译 码 约 束 度 ,nN 为 译 码 
ARKE, Na 和 nN 分 别 表 示 译 码 过 程 中 互相 约束 的 码 段 和 码 元 个 数 。 由 于 各 码 组 之 间 
存在 相关 性 ,因此 编码 的 信息 分 组 & 及 编码 长 度 n 也 比分 组 码 小 。 

1993 年 , 贝 鲁 (Berrou) 等 人 提出 了 接近 香农 信道 编码 理论 极限 的 纠 错 编码 一 一 Turbo 
码 59( 见 美国 专利 (US Patent 5,446,747))。 由 于 其 接近 信道 理论 的 极限 , 且 具 备 突出 的 纠 
错 能 力 , 一 直 备 受 关注 。 其 对 当今 的 编码 理论 和 研究 方法 产生 了 深远 影响 ,但 是 也 受到 解码 
复杂 的 制约 。 目 前 主要 的 解码 算法 有 最 大 后 验 概率 解码 算法 (Maximum A Posterori, 
MAP) ,修正 的 MAP 算法 (Max-Log-Map) 和 软 输出 维特 比 算法 (Soft Output Viterbi Algorithm, 
SOVA ) 。 

1962 年 ,加 拉 格 尔 (Gallager) 提 出 低 密度 奇偶 校 验 码 (Low-Density Parity-Check Codes, 
LDPC 4), LDPC 码 利用 校 验 和 矩阵 的 稀疏 性 ,使 得 解码 复杂 度 只 与 码 长 旦 线性 关系 ， 
在 长 码 长 的 情况 下 仍然 能 够 有 效 地 解码 ,因而 具有 更 简单 的 解码 算法 。 而 且 进 一 步 的 研究 
表明 ,LDPC 码 和 Turbo 码 一 样 具有 逼 近 香 农 极限 的 性 能 ,实验 中 找到 的 最 好 的 LDPC 码 
的 极限 性 能 距 香农 理论 极限 只 差 0.0045dB。 有 研究 表明 ,基于 非 规则 的 双向 图 的 LDPC 长 
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码 的 性 能 优 于 Turbo 码 ,具有 更 低 的 线性 解码 复杂 度 。LDPC 码 也 因此 受到 广泛 的 关注 。 
LDPC 码 是 采用 迭代 解码 ,其 算法 的 推导 是 基于 在 节点 间 传 递 的 信息 统计 无 关 。 当 LDPC 
码 编码 矩阵 所 对 应 的 双向 图 存在 环 结构 时 ,从 某 一 点 发 出 的 信息 经 过 环 被 传 回 该 节点 本 身 ， 
从 而 造成 自身 信息 释 加 ,破坏 了 独立 性 的 假设 ,进而 影响 解码 的 准确 性 。 因 此 ,LDPC 码 在 
构造 时 ,需要 对 编码 矩阵 对 应 的 图 进行 环 路 检测 及 消去 短 环 等 处 理 。 

级 联 型 低 密度 纠 删 码 (Cascaded Low-Density Erasure Code) 是 由 级 联 随 机 稀疏 二 部 图 
和 一 个 传统 的 纠 删 码 构造 而 成 的 一 种 特殊 的 纠 删 码 ,如 Tornado #4 9% FA fit AB De. FL fl JH 
异 或 操作 ,以 少量 的 解码 失效 换取 编 解码 效率 的 极 大 提升 ,可 以 处 理 任意 大 小 数据 量 。 

1998 年 ,Luby 等 人 首次 提出 了 用 于 分 布 式 数据 存储 的 数字 喷泉 码 ®*] (Digital Fountain 
Code) 。 数 字 喷 泉 码 是 一 种 线性 前 向 纠 错 编码 ,同时 也 是 一 种 分 组 码 。 数 字 喷 泉 码 是 一 种 
无 固定 码 率 的 线性 码 ,假定 原来 有 个 字符 ,那么 将 这 个 字符 通过 线性 变换 组 成 个 字 
符 , 再 从 nn 个 字符 中 任 取 k'(k' 上 略 大 于 上 ) 个 字符 将 必 能 恢复 原 个 字符 。 数 字 喷泉 码 与 
LDPC 码 的 最 大 区 别 在 于 其 中 不 存在 码 长 n 的 定义 ,或 者 说 码 长 趋 于 无 穷 。 相 应 地 , 码 率 
R=k/n 的 定义 也 不 存在 ,因此 数字 喷泉 码 也 被 称 为 无 率 码 (Rateless Codes). 

2002 ^E, Luby? 提出 了 第 一 类 通用 的 喷泉 码 一 一 基于 二 分 图 理论 的 LT (Luby 
Transform) 码 。 为 了 克服 LT 码 存在 译 码 失败 的 问题 ,Shokrollahi 提出 了 利用 其 他 纠 错 码 
与 LT 码 级 联 的 Raptor 码 中 3, 它 由 一 个 预 编码 和 LT 码 构成 ,是 数字 喷泉 码 模型 中 用 于 可 
靠 传输 的 最 新 码 。 

通信 过 程 中 存在 的 比特 或 信息 失效 问题 ,在 存储 系统 中 也 广泛 存在 ,因此 纠 删 码 技术 在 
通信 过 程 中 能 够 解决 的 问题 ,也 是 存储 系统 中 需要 解决 的 问题 。 这 也 是 各 类 纠 删 码 技术 很 
快 地 在 分 布 式 存储 系统 以 及 最 近 兴 起 的 云 计 算 与 云 存 储 系 统 中 得 到 广泛 应 用 的 原因 。 为 了 
适应 这 些 新 兴 的 存储 技术 , 纠 删 码 在 应 用 于 实际 系统 中 也 需要 根据 系统 的 特征 进行 专门 的 
设计 与 实现 。 


8.3 数据 备份 技术 


本 节 将 对 两 类 主要 的 数据 备份 技术 进行 介绍 ,并 对 它们 的 特点 进行 对 比分 析 。 
8.3.1 基于 多 副本 的 备份 


基于 多 副本 的 备份 技术 对 一 个 数据 对 象 创建 多 个 相同 的 数据 副本 ,并 把 多 个 副本 分 布 
存储 到 不 同 的 节点 上 , 当 若 干 数据 对 象 失 效 以 后 ,可 以 通过 访问 其 他 有 效 的 副本 恢复 原始 数 
据 。 基 于 多 副本 的 备份 方案 中 ,创建 的 多 个 副本 支持 并 行 的 数据 访问 ,能 够 极 大 地 提高 数据 
的 读 写 效率 。 

对 于 基于 多 副本 的 备份 技术 的 研究 主要 包括 两 个 方面 : 数据 组 织 结构 和 数据 复制 策 
略 。 数 据 组 织 结构 主要 研究 大 量 数据 对 象 及 其 副本 的 管理 方式 ,数据 复制 策略 主要 研究 副 
本 的 创建 时 机 、 副 本 的 数量 、 副 本 的 放置 等 方面 。 王 意 洁 等 人 在 文献 [24] 中 对 这 些 内 容 进 行 
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了 详细 阐述 。 

1. 数据 组 织 结构 

基于 多 副本 的 备份 技术 中 ,数据 组 织 结构 主要 研究 如 何 组 织 和 管理 大 量 的 数据 对 象 及 
其 副本 。 常 用 的 组 织 结构 主要 有 两 种 : 基于 元 数据 服务 器 (Meta-data Server. MDS) 的 组 织 
结构 和 基于 P2PCPeer to Peer) 的 组 织 结构 。 以 下 对 这 两 种 结构 进行 介绍 。 

(1) 基于 元 数据 服务 器 的 组 织 结构 。 

基于 元 数据 服务 器 的 组 织 结构 采用 统一 的 元 数据 服务 器 存储 数据 及 其 副本 的 元 数据 信 
息 ,这些 信息 包括 副本 位 置 版本、 副本 与 数据 对 象 之 间 的 映射 以 及 一 些 系 统 的 属性 、 特 征 、 
状态 等 。 这 种 组 织 结构 通过 把 管理 信息 存储 到 一 个 或 者 多 个 MDS 上 完成 对 数据 的 集中 式 
管理 。 当 用 户 访问 数据 时 ,首先 与 元 数据 服务 器 交互 获取 数据 对 象 的 位 置 .版 本 等 信息 , 然 
后 把 数据 写 入 到 相应 的 位 置 或 者 从 相应 的 位 置 读 取 数 据 块 。 

基于 MDS 的 组 织 结构 利用 MDS 分 离 元 数据 的 读 写 过 程 和 数据 的 读 写 过 程 ,可 以 提高 
数据 的 容错 率 和 读 写 效 率 。 为 了 降低 分 布 在 网 络 上 的 各 个 节点 访问 元 数据 服务 器 的 时 延 ， 
一 般 把 网 络 分 割 成 驴 , 然 后 在 每 个 秘 内 构建 元 数据 服务 器 集群 "中, 从 而 把 用 户 的 访问 分 
配给 距离 较 近 、 负 和 载 较 轻 的 元 数据 服务 器 ,可 以 极 大 地 提高 数据 读 写 效率 。 

在 Google 文 件 系 统 中 和 Hadoop 的 HDFS2 涪 中 均 采用 了 基于 元 数据 服务 器 的 组 织 结 
构 。HDFS 的 体系 结构 如 图 8-1 所 示 , 其 中 的 MDS 放 在 NameNode( 名 字 节 点 ) 上 ,数据 则 
存放 在 数据 节点 (DataNode) 上 ,用 户 读 写 数据 前 , 均 需要 与 NameNode 交互 ,取得 数据 的 元 
数据 信息 ,然后 从 DataNode 上 读 取 数据 。 


HDFS 体 系 结构 


8-1 HDFS 体系 结构 


HDFS 先 把 数据 分 割 成 固定 大 小 的 数据 块 , 然 后 再 以 块 为 对 象 进行 复制 ,每 个 数据 节点 
定期 地 发 送 自己 拥有 的 数据 块 列 表 信息 给 MDS, 因 此 MDS 能 够 掌握 数据 对 象 的 最 新 分 布 
状态 。 当 用 户 读 取 数 据 时 ,首先 通过 MDS 获取 数据 的 块 列表 、 每 个 块 的 副本 列表 及 其 所 在 
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的 数据 节点 位 置 ,然后 选择 一 个 最 近 的 数据 节点 读 取 数 据 。 写 数据 时 ,通过 MDS 获取 需要 
创建 的 副本 数目 以 及 分 配给 每 个 副本 的 数据 节点 的 位 置 , 然 后 执行 数据 写 入 操作 ,并 在 数据 
写 入 完成 后 把 每 个 数据 块 的 块 列表 信息 以 及 数据 块 的 副本 信息 和 版 本 信息 等 记录 到 MDS, 
基于 元 数据 服务 器 的 组 织 结构 简单 ,易于 管理 ,但 是 对 数据 的 所 有 访问 都 需要 通过 
MDS ,容易 形成 瓶颈 ,从 而 影响 效率 且 存在 单 点 失效 的 可 能 。 为 了 提高 性 能 ,同时 减 小 单 点 
失效 的 可 能 ,改进 的 方案 通过 构建 由 多 个 元 数据 服务 器 组 成 的 元 数据 服务 器 集群 ,分 散 单个 
元 数据 服务 器 的 负载 , 减 小 单个 服务 器 失效 对 系统 的 影响 ,同时 提升 数据 访问 的 效率 。 
(2) 基于 P2P 的 组 织 结构 
P2P(CPeer-to-Peer) 网 络 也 叫 点 对 点 网 络 或 对 等 网 络 , 它 的 一 个 显著 特点 是 网 络 中 的 节 
点 是 对 等 的 ,没有 中 心 点 。 基 于 P2P 的 组 织 结构 把 所 有 的 节点 按照 P2P 的 方式 组 织 , 各 个 
节点 的 角色 是 对 等 的 ,数据 在 存储 时 按照 分 布 式 哈 希 表 (Distributed Hash Table,DHT) 的 
形式 存储 到 节点 上 ,通常 把 数据 的 副本 存放 在 负责 数据 映射 关键 字 节 点 的 若干 个 后 继 节点 
EO ,访问 时 通过 计算 Hash 值 获得 数据 的 存放 位 置 。Amazon 的 Dynamo™*! 和 Facebook 
的 Cassandra"? fp 3c JH JE-T- P2P 的 组 织 结构 管理 元 数据 。 
Dynamo 采用 一 致 性 哈 希 (Consistent Hashing)” ZK 
的 方法 把 数据 分 布 存 储 到 不 同 的 节点 上 。 一 致 性 (9 
Hash 函数 的 值 域 ( 也 称 哈 希 空间 ) 构 成 一 个 封闭 的 (s) I 
环 , 通 过 随机 地 给 每 个 节点 在 喻 希 空间 上 赋予 一 个 


í 节点 B、C 和 
值 ,Dynamo 把 节点 构成 一 个 环 ,而 这 些 值 则 表示 节 (F) E) 
点 在 环 上 的 位 置 。 其 结构 如 图 8-2 所 示 。 其 中 包括 密 钥 K 


Dynamo 环 上 的 每 个 节点 负责 管理 自己 及 其 前 © 
一 个 节点 之 间 的 哈 希 值 空间 区 域 ,每 个 数据 对 象 都 
由 一 个 唯一 的 Key 标识 。 当 要 插入 数据 到 Dynamo 图 8-2 环 状 结构 
中 时 ,首先 对 Key 进行 哈 希 计算 得 到 一 个 哈 希 值 ,这 
个 值 一 定 属于 环 上 某 两 个 节点 之 间 的 哈 希 值 空间 区 域 。 沿 着 环 顺 时 针 查 找 ,可 以 找到 满足 
节点 的 哈 希 值 大 于 等 于 该 数据 哈 希 值 的 第 一 个 节点 ,该 节点 被 称 为 该 数据 的 协调 节点 
(Coordinator) 。 协 调节 点 不 仅 存储 落 在 自己 范围 之 内 的 数据 ,而 且 负 责 对 其 管理 的 每 个 数 
据 对 象 复制 N 一 1 个 副本 ,并 把 这 些 副本 存放 到 之 后 的 N 一 1 个 后 继 节点 上 。 在 图 示 中 , 通 
过 对 数据 对 象 计算 Hash 值 ,判断 该 Hash 值 的 范围 来 决定 数据 的 存放 节点 。 在 图 8-2 中 ， 
某 个 数据 对 象 的 Key 标识 的 Hash 值 在 A 和 B 两 个 节点 的 哈 希 值 空间 区 域 范围 内 ,因此 将 
该 数据 对 象 的 副本 存放 在 A 节点 的 3 个 后 继 节点 B`C 和 D 上 。 

基于 P2P 的 组 织 结 构 不 需要 统一 的 中 央 服 务 器 ,解决 了 元 数据 服务 器 的 单 点 失效 和 性 
能 瓶颈 问题 。 但 是 因为 没有 全 局 的 信息 作为 指导 ,副本 的 放置 会 带 来 负载 不 均衡 的 问题 ,而 
且 协 调节 点 的 失效 会 导致 其 负责 管理 的 数据 对 象 不 可 用 。 

2. 数据 复制 方法 

数据 复制 方法 与 多 个 因素 相关 ,比如 应 用 需求 .网 络 状况 .存储 空间 和 数据 访问 模式 等 
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同时 数据 复制 方法 对 于 数据 的 容错 率 、 读 写 效 率 以 及 存储 空间 利用 率 等 至 关 重 要 。 对 于 复 
制 方法 的 研究 主要 包括 复制 策略 以 及 副本 的 放置 策略 两 个 方面 。 
(1) 复制 策略 
复制 策略 主要 关注 创建 副本 的 时 机 以 及 创建 副本 的 数量 ,常见 的 复制 策略 包括 静态 复 
制 策略 和 动态 复制 策略 。 
。 静态 复制 策略 在 数据 写 入 时 就 创建 指定 数目 的 副本 ,然后 依据 副本 放置 策略 把 副本 
分 布 存储 到 节点 上 。 例 如 ,Google 文件 系统 GFS 和 Hadoop 的 HDFS 都 是 由 配置 
参数 确定 副本 的 数目 。 静 态 复 制 策略 简单 易 懂 ,但 是 不 能 依据 环境 的 变化 做 出 动态 
的 调整 ,容易 造成 资源 浪费 。 
。 动态 复制 策略 可 以 依据 网 络 状 况 ,存储 空间 、 用 户 需 求 等 动态 地 创建 或 者 删除 副本 。 
在 存储 空间 紧张 时 删除 部 分 副本 以 节省 存储 空间 ; 当 存 储 资 源 丰 富 时 ,为 频繁 访问 
的 数据 增加 副本 以 提高 效率 ,并 实现 节点 负载 均衡 。 例 如 ,Facebook 的 Cassandra 
系统 就 是 通过 动态 复制 迁移 副本 以 均衡 节点 的 负载 。 动 态 复制 策略 可 参考 文献 
[31-33]。 但 是 动态 复制 策略 在 动态 创建 或 者 迁移 副本 时 需要 执行 一 些 额 外 的 操 
作 , 特 别 是 频繁 的 数据 传输 会 带 来 很 大 的 网 络 开 销 。 
(2) 放置 策略 
设置 放置 策略 的 基本 目的 在 于 提高 数据 的 容错 率 , 使 得 用 户 在 部 分 副本 失效 以 后 仍然 
能 够 通过 其 他 的 副本 获得 数据 。 但 是 将 创建 的 副本 传输 到 放置 节点 上 ,需要 占用 一 定 带宽 
并 带 来 时 延 。 因 此 ,良好 的 放置 策略 不 但 要 考虑 容错 率 , 也 要 考虑 复制 效率 ,使 得 副本 能 够 
快速 地 放置 到 节点 上 。 
传统 的 针对 提高 容错 率 的 副本 放置 策略 有 顺序 放置 策略 和 随机 放置 策略 ,分 别 介绍 
如 下 。 
。 顺序 放置 策略 : 把 副本 按照 一 定 的 顺序 依次 放置 到 候选 节点 上 。 这 种 策略 的 思想 
是 : 若 一 个 放置 策略 产生 的 排列 越 多 , 当 多 个 节点 发 生 随 机 错误 时 , 越 容易 造成 多 
个 副本 失效 。 因 此 ,如 果 把 一 个 数据 对 象 的 所 有 副本 按照 一 定 的 顺序 放置 到 各 个 节 
点 上 ,那么 多 个 节点 失效 的 排列 数目 就 是 有 限 的 ,这 样 在 随机 失效 模式 下 可 靠 性 就 
得 到 提高 。 顺 序 放置 策略 比较 简单 ,而 且 容易 实现 ,但 在 实际 应 用 中 ,各 类 失效 往往 
是 相关 的 。 比 如 网 络 的 失效 会 导致 整个 机 架 不 可 访问 ,而 断 电 则 会 导致 整个 数据 中 
心 不 可 访问 。 顺 序 放置 策略 一 般 应 用 于 分 布 式 哈 希 表 结 构 中 号 ?4 汪 。 
随机 放置 策略 : 在 数据 的 可 放置 节点 集合 中 随机 地 选择 若干 个 节点 。 然 后 把 副本 
放置 到 这 些 随 机 选择 的 节点 上 。 当 前 的 数据 中 心 的 副本 放置 大 多 采用 随机 放置 策 
略 ,比如 GFS 和 Cassandra 等 系统 。 随 机 放置 能 够 降低 关联 失效 对 可 靠 性 的 影响 ， 
同时 还 能 够 实现 节点 负载 均衡 。 但 是 这 种 理论 上 的 均衡 是 在 节点 的 同 构 性 和 数据 
访问 的 同 构 性 假设 条 件 下 得 到 的 .在 实际 应 用 中 ,因为 每 个 节点 的 存储 能 力 、 计 算 能 
力 ,数据 的 访问 频率 均 不 同 ,一些 数据 可 能 会 更 加 频繁 地 被 访问 ,因此 这 种 策略 并 不 
能 很 好 地 均衡 节点 的 负载 。 
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最 新 的 放置 策略 在 保证 容错 率 的 同时 , 旨 在 提高 副本 放置 的 效率 和 数据 访问 的 效率 。 
为 了 节省 副本 创建 和 传输 的 时 间 ,HDFS 的 设计 人 员 把 第 二 个 和 第 三 个 副本 放置 到 相同 的 
机 架 上 。 为 了 提高 数据 访问 的 效率 ,Chandy 等 人 吕 则 把 副本 放置 在 距离 用 户 较 近 的 节点 
上 ,使 得 访问 数据 时 能 够 较 快 地 获取 数据 。 而 Ding 等 人 "3 则 依据 用 户 的 访问 模式 ,对 那些 
经 常 访问 的 数据 创建 较 多 的 副本 ,并 把 副本 放置 到 用 户 访问 密集 的 区 域 。 


8.3.2 基于 纠 删 码 的 备份 


与 基于 多 副本 的 备份 技术 相 比 , 纠 删 码 技术 可 以 在 显著 降低 存储 空间 消耗 的 同时 提供 
相同 甚至 更 高 的 数据 容错 能 力 ""9。 假 设 在 基于 多 副本 的 备份 方案 中 采用 3 个 副本 ,在 基 
于 纠 删 码 的 备份 方案 中 采用 (14,10)-Reed-Solomon 纠 删 码 ,基于 纠 删 码 的 备份 方案 可 将 存 
储 空间 消耗 降低 53% ,同时 将 容错 能 力 提高 一 倍 。 

随 着 大 数据 时 代数 据 规模 的 爆炸 式 增长 ,容错 能 力 强 且 存储 成 本 低 的 纠 删 码 容错 技术 
受到 了 广泛 关注 ,成 为 存储 领域 的 一 个 研究 热点 。 文 献 [39-42] 对 分 布 式 存储 中 的 纠 删 码 容 
错 技术 . 单 磁盘 错误 重 构 优 化 方法 、 随 机 二 元 扩展 码 等 进行 了 详细 的 阐述 。 

在 纠 删 码 技术 中 ,有 一 类 新 的 编码 技术 , 即 基 于 再 生 码 (Regenerating Codes) 的 纠 删 码 。 
与 传统 的 基于 度数 限制 方法 的 纠 删 码 不 同 ,基于 再 生 码 的 纠 删 码 并 不 限制 数据 块 和 宛 余 块 
的 度数 ,而 是 通过 选择 特殊 的 编码 系数 来 构造 生成 矩阵 ,在 需要 修复 时 ,把 存储 在 同一 节点 
的 多 个 数据 块 的 数据 融合 ,从 而 降低 需要 传输 的 数据 量 ,达到 节省 带宽 成 本 的 目的 。 

2007 年 ,Dimakis 等 人 己 ' 鸭 首先 提出 了 一 种 称 为 再 生 码 的 纠 删 码 , 其 基本 思想 是 通过 
适当 增加 宛 余 ,并 且 使 新 生 节 点 从 尽量 多 的 节点 下 载 数据 ,来 降低 修复 需要 下 载 的 总 数 
据 量 。 

再 生 码 %' 外 也 是 一 种 基于 网 络 编码 思想 中 设计 的 纠 删 码 , 它 具有 两 个 明显 的 特点 。 

(1) 再 生 码 的 数据 块 和 校 验 块 都 包含 相同 数量 的 子 块 ,编码 与 修复 时 以 子 块 为 基本 单 
位 , 子 块 之 间 的 关系 也 更 为 复杂 。 

(2) 再 生 码 在 进行 数据 修复 时 ,新 生 节点 需要 从 尽量 多 的 节点 来 下 载 数据 。 

再 生 码 一 般 用 三 元 组 (n.k,d) 表 示 。(n,k,d)- 再 生 码 的 一 个 条 带 包 含 n 个 编码 块 ,可 
以 容忍 任意 一 k 个 块 失效 ,进行 数据 修复 时 新 生 节点 可 以 连接 d 个 存活 节点 下 载 数据 ,其 
中 kd 三 n 一 1。 另 外 ,再 生 码 还 有 3 个 常用 的 


辅助 参数 a、B8 MB ,分别 表示 单个 编码 块 包含 的 Be | Bı AtB: || [24:5 
子 块 个 数 .连接 到 d 个 节点 进行 数据 修复 时 从 En B | | [Lbs 
单个 节点 下 载 的 子 块 个 数 和 一 个 条 带 包 含 的 数 D. 
据 子 块 个 数 。 / 

再 生 码 的 基本 原理 如 图 8-3 Bos ,假设 有 4 人 
个 数据 块 存放 在 2 个 节点 上 ,每 个 节点 存放 2 7 


个 数据 块 ,后 两 个 节点 上 存放 4 MERR, TAR 
块 分 别 由 前 两 个 节点 上 的 数据 块 计算 得 到 。 当 。 图 83 《4,2) 青 生 码 修 复 一 个 失效 节点 的 过 程 
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某 个 节点 失效 时 , 先 在 各 个 节点 上 进行 一 次 组 合计 算 ,将 计算 结果 及 使 用 的 计算 系数 上 传 到 
修复 后 数据 块 要 存储 的 节点 。 由 图 中 可 知 ,修复 数据 块 A, AA, 只 需 传送 3 个 块 大 小 的 数 
据 量 ,如 果 不 经 计算 融合 而 直接 传送 数据 , 则 要 传送 6 个 数据 块 ,因此 可 以 极 大 地 降低 网 络 
资源 消耗 。 

针对 基于 再 生 码 的 纠 删 码 研究 主要 关注 最 小 带宽 再 生 码 (Minimum Bandwidth 
Regenerating Codes,MBR 码 ) 和 最 小 存储 再 生 码 (Minimum Storage Regenerating Codes, 
MSR 码 ),MBR 码 具 有 最 低 的 数据 修复 带宽 ,MSR 码 具 有 最 低 的 存储 开销 。 

Dimakis 等 人 5 提出 了 再 生 码 的 概念 并 证 明了 再 生 码 修复 带宽 的 下 界 ,但 是 没有 证 明 
达到 这 个 下 界 的 再 生 码 是 否 存在 ,也 没有 给 出 构造 这 种 再 生 码 的 具体 方法 。 

2009 年 ,Wu 等 人 [9 提出 了 确定 性 再 生 码 (Deterministic Regenerating Code) ,并 从 概 
率 统计 的 角度 证 明了 确定 性 再 生 码 (n,2,n 一 1) 的 存在 性 。 确 定性 再 生 码 通过 有 限 域 上 的 
基于 概率 统计 方法 的 随机 选择 系数 ,获得 一 组 满足 特定 要 求 的 系数 ,构造 出 能 够 精确 修复 元 
余 块 的 再 生 码 。 在 同一 年 ,Rashmi 等 人 [9 构造 了 一 个 (2 ,2 一 1) 确 定性 MBR 码 。2011 
年 ,Rashmi 等 人 外 利用 矩阵 乘 的 方法 构造 出 了 (Gn,k,d) 的 确定 性 MBR THRI Cn E d >2k —2) 
的 确定 性 MSR 码 ,并 证 明 不 存在 d —2k —2 的 确定 性 MSR 码 。 至 此 ,所 有 存在 的 MBR 码 
和 MSR 码 都 可 以 用 统一 的 方法 被 构造 出 来 。 

再 生 码 可 以 对 数据 块 进行 确定 性 修复 ,但 对 宛 余 块 却 只 能 做 到 功能 性 修复 , 即 修复 后 的 
宛 余 信 息 与 原始 宛 余 信 息 不 一 致 ,但 可 以 提供 同等 程度 的 容错 能 力 。 

青 生 码 技术 采用 网 络 编码 的 方法 来 降低 修复 成 本 ,可 以 在 一 定 程度 上 减少 修复 过 程 中 
传输 的 数据 量 。 但 为 了 满足 一 定 的 编码 要 求 , 如 确定 性 修复 等 , 则 系数 所 在 的 有 限 域 要 足够 
大 才能 保证 系数 的 存在 性 ,而 且 编码 系数 的 选择 方法 不 规则 ,实现 起 来 困难 。 同 时 ,再 生 码 
可 以 极 大 地 减少 修复 时 的 传输 数据 量 ,但 是 需要 读 取 的 数据 量 却 很 大 。 在 数据 修复 过 程 中 ， 
参与 修复 的 节点 需要 把 自己 存储 的 所 有 数据 都 读 取出 来 进行 组 合计 算 。 由 于 MBR 码 需要 
存储 的 数据 量 更 大 ,所 以 修复 时 需要 读 取 的 数据 量 比 传统 纠 删 码 多 。 这 不 仅 增加 了 系统 的 
磁盘 负载 ,也 限制 了 修复 的 速率 。 虽 然 MSR 码 存储 的 数据 量 和 传统 MDS 码 相 等 ,但 是 修 
复 时 需要 从 多 于 e 个 节点 下 载 数据 ,所 以 其 读 取 的 数据 量 也 比较 多 。 

针对 上 述 问题 ,Shah 等 人 中 提出 了 RBT (Repair by Transfer)MBR 码 。RBT MBR 码 
在 数据 修复 时 只 传输 数据 而 不 进行 任何 数学 运算 ,使 需要 读 取 的 数据 量 和 需要 传输 的 数据 
量 相 同 。 后 续 的 研究 工作 还 有 文献 [51j 等 。 

功能 性 最 小 存储 再 生 码 (Functional Minimum Storage Regenerated Code. FMSR 码 ) 是 
一 种 支持 功能 性 修复 的 最 小 存储 再 生 码 , 属 于 典型 的 (n,k) 最 大 距离 可 分 (Maximum 
Distance Separable, MDS) 码 ,保持 了 MDS 码 良好 的 容错 能 力 和 存储 效率 。 对 于 一 个 大 小 
H M 的 文件 ,(n.k)-FMSR 码 将 其 切 分 成 k(n 一 &) 个 固定 大 小 的 原始 块 ,再 将 它们 编码 成 
n(n 一 个 编码 块 ,上 传 给 个 数据 节点 ,每 个 节点 存储 nn 一 k 个 编码 块 。 数 据 读 取 过 程 中 ， 
首先 随机 挑选 任意 & 个 节点 ,下 载 &(n 一) 个 编码 块 ; 然后 对 其 进行 译 码 操作 ,还 原 出 原始 
数据 块 ; 最 后 ,将 数据 块 合并 成 原始 文件 。 
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Hu 等 人 中 利用 数据 的 拟态 变换 提出 一 种 功能 性 最 小 存储 再 生 码 ,主要 依赖 于 FMSR 
码 良 好 的 修复 性 能 ,通过 控制 变换 时 机 和 编码 系数 的 选取 ,实现 数据 存储 状态 的 随机 时 变 切 
换 。 当 某 个 数据 节点 因为 意外 情况 失效 了 ,为 了 保证 数据 的 安全 性 和 服务 的 连续 性 ,必须 尽 
快 对 其 上 的 数据 进行 修复 。 数 据 的 重 构 过 程 需要 在 其 他 一 1 个 数据 节点 上 各 取 一 个 数据 
块 ,将 这 一 1 个 数据 块 重新 编码 生成 n 一 k 个 编码 块 ,替代 失效 节点 的 数据 。 

最 近 , 陈 越 等 人 5 针对 云 存储 系统 确定 性 存储 模式 带 来 的 安全 威胁 ,提出 了 一 种 基于 
再 生 码 的 拟态 存储 机 制 ,通过 对 数据 进行 编码 存储 ,并 在 云端 进行 拟态 变换 ,增加 了 攻击 者 
获得 数据 的 难度 和 成 本 。 该 机 制 在 存储 过 程 中 引入 了 元 余 性 .随机 性 和 时 变性 ,支持 数据 的 
快速 恢复 和 重 构 ,提高 了 系统 的 容错 性 和 抗 毁 性 ,可 保证 数据 的 完整 性 和 持续 可 用 性 。 拟 态 
化 存储 的 基本 思路 为 在 数据 存储 和 访问 的 过 程 中 ,加 入 时 变 和 随机 因素 ,实现 数据 存储 状态 
的 动态 可 变 ,从 而 增加 攻击 者 获取 数据 的 难度 和 成 本 。 

目前 基于 再 生 码 的 编码 方法 仍 处 于 探索 阶段 。 

研究 人 员 已 经 提出 了 各 种 类 型 的 纠 删 码 策略 5 ,同时 也 有 许多 研究 人 员 实现 了 一 些 纠 
删 码 算法 ,并 公布 了 他 们 的 代码 库 , 比 如 Plank 等 人 实现 的 Jerasure .LUBY 实现 的 Cauchy 
Reed-Solomon(http://www. icsi. berkeley. edu/ — luby/) , Python Software Foundation 发 布 的 
ZfecChttp://pypi. python. org/pypi/zfec) 以 及 Partow 实现 的 Reed-Solomon fij. Schifra 
(http://www. schifra. com/downloads. html), 2009 4E. Plank 4 AC 对 一 些 常 见 的 开源 
纠 删 码 实 现 进行 了 评测 和 对 比 。 他 们 不 仅 比较 了 各 个 开源 的 纠 删 码 实 现 , 而 且 比较 了 各 种 
已 有 的 纠 删 码 的 效率 ,同时 还 测试 了 各 个 参数 对 纠 删 码 效率 的 影响 ,为 研究 人 员 在 分 布 存储 
中 研究 基于 纠 删 码 的 备份 技术 提供 了 重要 的 参考 。 

HDFS 虽然 在 最 初 的 实现 中 采用 的 是 基于 多 副本 的 备份 技术 ,但 是 作为 具有 良好 结构 
的 开源 分 布 存 储 系 统 , 它 为 纠 删 码 的 研究 和 测试 提供 了 和 良好 的 平台 。 微 软 研 究 院 的 Zhang 
等 人 [修改 了 HDFS, 使 其 支持 纠 删 码 的 备份 方案 。Fan GACT 则 在 HDFS 中 加 入 一 个 后 
台 进 程 监控 数据 节点 上 的 数据 块 , 并 对 那些 生命 周期 超过 一 定期 限 的 数据 块 , 采 用 纠 删 码 的 
备份 方案 替换 多 副本 方案 ,从 而 节省 了 存储 空间 。 


8.3.3 几 种 备份 技术 的 优 缺 点 


基于 多 副本 的 备份 技术 简单 直观 ,易于 实现 和 部 署 , 且 可 以 并 行 访问 ,提高 了 数据 的 读 
写 效率 ,但 是 需要 为 每 个 数据 对 象 创建 若干 同样 大 小 的 副本 ,存储 空间 开销 比较 大 。 

基于 纠 删 码 的 备份 技术 则 能 够 把 多 个 数据 块 的 信息 融合 到 较 少 的 宛 余 信息 中 ,因此 能 
够 有 效 地 节省 存储 空间 ,但 是 对 数据 的 读 写 操作 要 分 别 进行 编码 和 解码 操作 ,需要 一 些 计 算 
开销 。 

当 数据 失效 以 后 ,基于 多 副本 的 备份 技术 只 需要 从 其 他 副本 下 载 同样 大 小 的 数据 即 可 
进行 修复 ; 而 基于 纠 删 码 的 备份 技术 则 需要 下 载 的 数据 量 一般 远 大 于 失效 数据 大 小 ,并 需 
要 进行 编 解 码 操作 ,增加 了 额外 的 计算 开销 。 

假定 原始 数据 有 个 数据 块 , 编 码 后 的 数据 块 为 个 , 纠 删 码 的 编码 参数 为 (x ,k), 获 
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取 其 中 的 任意 & 个 数据 块 就 可 以 恢复 原始 数据 ,其 容错 能 力 为 2 一 上 十 1。 那 么 ,基于 多 副本 
的 备份 技术 要 提供 2 一 上 十 1 的 容错 能 力 ,就 必须 另外 创建 n 一 十 1 个 副本 ,存储 空间 的 开 
销 也 增 大 了 n 一 & 十 1 倍 。 纠 删 码 在 不 考虑 其 他 因素 的 情况 下 ,能 够 在 ”一 上 十 1 个 数据 块 失 
效 时 仍然 保持 数据 的 可 用 性 。 两 种 技术 的 存储 开销 、 修 复 带宽 和 容错 能 力 如 表 8-1 所 示 。 


表 8-1 两 种 备份 技术 的 对 比 (单位 : H) 


对 比 指标 基于 多 副本 基于 纠 删 码 
存储 开销 k (n—k+1) n 

修复 带宽 1 n 

容错 能 力 n—k+1 n—kt+1 


因此 ,基于 多 副本 的 备份 技术 存储 开销 大 ,但 修复 带宽 较 小 ; 而 基于 纠 删 码 的 容错 技术 
能 够 节省 存储 空间 ,但 需要 更 高 的 修复 带宽 。 基 于 纠 删 码 的 备份 技术 实现 复杂 ,修复 成 本 较 
高 ,因此 在 实际 的 分 布 存储 中 应 用 较 少 。 

Weatherspoon 等 人 中 在 基于 P2P 的 分 布 存储 系统 OceanStore?? 上 采用 了 基于 纠 删 
码 的 容错 技术 ,以 实现 对 归档 数据 进行 备份 ,节省 存储 空间 。 他 们 对 多 副本 和 纠 删 码 的 存储 
开销 进行 对 比 , 当 存储 系统 中 节点 平均 可 靠 性 为 0.5 时 ,为 了 保证 存储 系统 在 任意 时 候 文 件 
的 可 获取 概率 大 于 0. 999, 基 于 多 副本 的 策略 需要 的 存储 开销 是 原始 数据 大 小 的 10 倍 , 而 
纠 删 码 策略 是 原始 数据 大 小 的 2. 49 fi 

但 是 ,这 种 理论 上 的 理想 状况 在 实际 环境 中 很 难 达到 ,因为 在 实际 的 云 存储 中 采用 基于 
纠 删 码 的 备份 技术 时 ,需要 考虑 各 种 特定 的 应 用 背景 和 需求 ,包括 数据 的 访问 模式 、 节 点 的 

Lin 等 人 5 经 过 深入 的 研究 发 现 , 纠 删 码 的 优势 并 不 如 想象 的 那么 明显 ,在 节点 可 用 性 
很 低 的 情况 下 , 纠 删 码 的 成 本 甚至 要 高 于 对 整个 文件 进行 复制 的 成 本 。 基 于 纠 删 码 的 容错 
技术 还 有 一 些 内 在 的 缺陷 ,比如 在 下 载 延 迟 上 受 限于 &' 个 数据 块 中 的 最 近 副 本 的 最 大 延 
迟 , 而 基于 多 副本 的 技术 则 只 需 下 载 最 近 的 副本 。 纠 删 码 也 无 法 直接 读 取 下 载 数据 块 中 的 
一 个 子 块 ,要 获取 某 一 个 子 块 ,必须 下 载 多 个 数据 块 ,再 经 解码 得 到 相应 的 子 块 。 对 于 服务 
器 端的 一 些 诸如 关键 字 搜 索 、 内 容 查 找 等 操作 ,也 是 基于 纠 删 码 的 备份 技术 所 无 法 满足 的 。 

Rodrigues 等 人 中 在 PlanetLab, Overnet 和 Farsite 等 多 个 平台 下 的 实验 模拟 的 研究 结 
果 表 明 , 纠 删 码 的 优势 并 不 是 在 每 个 平台 上 都 能 够 发 挥 出 来 ,在 某 些 特殊 的 情况 下 ,其 效果 
还 比 不 上 基于 多 副本 的 备份 技术 。 

在 实际 的 云 计算 环境 下 ,各 种 云 存 储 平台 向 各 类 应 用 提供 存储 服务 ,比如 Amazon 的 电 
子 商 务 应 用 .Google 的 Web 搜索 应 用 ,这 些 应 用 对 容错 的 要 求 有 所 不 同 。 

基于 多 副本 的 备份 技术 实现 简单 .易于 部 署 ,可 以 提供 更 高 的 访问 效率 ,在 Web 搜索 、 
电子 商务 ,在线 社交 网 络 等 领域 应 用 广泛 ,比如 在 Google 的 GFS, Amazon 公司 的 Dynamo 
和 Facebook 的 Cassandra 以 及 Hadoop 的 HDFS 中 都 采用 基于 多 副本 的 备份 技术 提高 系 
统 的 可 用 性 和 可 靠 性 。 并 且 不 同 的 应 用 在 数据 的 组 织 方式 上 也 有 所 不 同 ,Google 的 GFS 
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采用 元 数据 服务 器 的 方式 组 织 和 管理 大 量 的 Web 搜索 数据 ; 而 Amazon 的 电子 商务 应 用 
和 Facebook 的 社交 网 站 应 用 中 存储 的 多 是 键 - 值 对 数据 ,因此 它们 均 采 用 一 致 性 喻 希 的 方 
式 组 织 数 据 以 获得 更 高 的 效率 。 在 元 余 块 的 大 小 设置 方面 ,Google 的 GFS 选择 了 较 大 的 
64MB 的 数据 块 ,这 样 可 以 减 小 数据 块 的 数量 ,进而 减 小 其 初始 设计 时 单一 元 数据 服务 器 的 
负载 。 

为 了 消除 应 用 的 相关 性 ,Kossmann 等 人 中 提出 了 一 种 灵活 的 可 配置 的 模块 化 分 布 存 
fit ABE Cloudy, 通 过 采用 一 种 通用 的 DPI(Deep Packet Inspection ,深度 包 检 测 ) 模 型 表示 数 
据 , 使 得 用 户 能 够 根据 自身 的 需求 修改 模块 和 参数 ,使 之 适应 特定 的 应 用 场景 。 但 是 
Cloudy 仍然 不 能 解决 所 有 问题 ,不 同 的 应 用 仍 需 针 对 应 用 特性 研究 相关 的 技术 ,开发 不 同 
的 模块 。 

Fan 等 人 中 通过 对 雅虎 M45 集群 应 用 7 个 月 的 追踪 观察 发 现 , 大 多 数 的 数据 访问 操作 
发 生 在 数据 创建 后 的 较 短 的 一 段 时 间 内 ,因此 他 们 修改 了 HDFS, 使 其 通过 一 个 后 台 进 程 监 
控 写 入 的 数据 块 , 当 数据 块 被 写 人 一 段 时 间 后 通过 用 编码 块 蔡 换 副本 块 ,采用 基于 纠 删 码 的 
容错 技术 替换 基于 复制 的 容错 技术 ,来 节省 存储 空间 ,并 在 此 基础 上 测试 了 延迟 编码 的 时 间 
与 带 来 的 性 能 损耗 之 间 的 关系 。 其 结果 表明 , 当 延 迟 时 间 大 于 1 个 小 时 以 后 ,性 能 的 损耗 几 
平 可 以 忽略 不 计 。 此 时 采用 基于 纠 删 码 的 容错 技术 能 够 有 效 地 降低 存储 开销 ,而 延迟 带 来 
的 磁盘 临时 额外 开销 仅 为 12% 左 右 。 

真正 决定 纠 删 码 编码 性 能 的 因素 包括 : 编码 算法 的 时 间 复 杂 度 和 编码 过 程 中 需要 读 
取 、 传 输 和 写 人 的 数据 量 。 随 着 计算 机 运算 能 力 的 飞速 增长 ,编码 运算 的 速度 已 远 远 超过 数 
据 的 读 取 、 传 输 和 写 人 速度 。 而 影响 数据 读 取 、 传 输 和 写 和 人 量 的 主要 因素 是 编码 前 数据 的 分 
布 情 况 和 采用 的 编码 实现 方法 。 此 外 , 纠 删 码 的 数据 元 余 度 也 对 运算 量 ,数据 传输 量 和 写 和 人 
量 有 重大 影响 。 宛 余 度 越 高 ,意味 着 有 更 多 的 校 验 数 据 需要 产生 、 发 送出 去 并 写 人 到 磁 
盘 中 。 

纠 删 码 的 编码 运算 主要 是 有 限 域 上 的 加 法 和 乘法 运算 ,其 中 较为 费时 的 是 乘法 运算 。 
所 以 ,乘法 运算 的 数量 可 以 用 来 表征 编码 算法 的 复杂 度 。 此 外 ,编码 使 用 的 有 限 域 的 大 小 也 
对 运算 时 间 有 很 大 影响 。 随 着 有 限 域 的 增 大 ,乘法 运算 的 复杂 度 呈 指数 级 增长 。 此 外 ,对 于 
较 小 的 有 限 域 , 如 8 位 256 个 元 素 的 有 限 域 , 可 以 将 所 有 可 能 的 乘法 运算 结果 保存 在 内 存 
中 ,用 查 表 的 方法 加 快 乘法 运算 速度 。 目 前 对 于 常见 的 参数 ,上 述 各 类 纠 删 码 中 较 优秀 者 的 
编码 运算 基本 可 以 在 8 位 有 限 域 上 完成 。 

王 意 洁 等 人 中 指出 ,传统 MDS 码 的 存储 空间 利用 率 最 高 ,但 是 其 数据 修复 开销 也 最 
大 ,甚至 高 于 其 他 种 类 纠 删 码 数 倍 。 相 比 于 传统 MDS 码 , 分 组 码 能 够 以 较 少 的 额外 存储 空 
间 开 销 为 代价 ,显著 降低 数据 修复 的 成 本 。 分 组 码 也 较 容 易 实 现 ,这 也 是 其 在 大 型 存储 系统 
中 得 到 应 用 的 重要 原因 之 一 。 再 生 码 可 以 极为 有 效 地 降低 数据 修复 开销 ,但 是 再 生 码 的 存 
储 空间 利用 率 明显 低 于 其 他 类 别 纠 删 码 ,其 存储 空间 利用 率 最 高 也 只 能 达到 50% 左 右 。 所 
以 ,再 生 码 不 适用 于 对 存储 成 本 要 求 较 高 的 大 规模 存储 系统 ,而 适用 于 对 带宽 成 本 极其 敏感 
的 系统 。 例 如 ,可 以 将 再 生 码 用 在 数据 中 心 级 的 数据 容错 中 ,因为 数据 中 心 之 间 的 网 络 带宽 


182 4| 云 存 储 安全 一 一 大 数据 分 析 与 计算 的 基石 


极其 昂贵 。 
总 之 ,不 同 的 备份 技术 各 有 优 缺 点 ,需要 与 实际 应 用 需求 结合 ,经 过 一 定 的 实际 测试 才 
能 找到 最 适合 的 备份 方案 。 


8.4 数据 恢复 技术 


基于 多 副本 的 备份 技术 的 数据 恢复 过 程 是 比较 容易 实现 的 ,直接 从 任意 可 用 副本 就 可 
以 读 取 原 始 数据 。 大 部 分 的 数据 恢复 技术 集中 在 研究 基于 纠 删 码 的 备份 技术 ,除了 从 纠 删 
码 本 身 着 手 降低 数据 恢复 的 代价 之 外 ,从 数据 恢复 的 具体 过 程 着 手 , 优 化 恢复 时 的 数据 读 
取 、 传 输 过 程 也 可 以 进一步 提高 数据 恢复 的 效率 。 

传统 的 数据 恢复 方法 通常 采用 星 形 的 数据 传输 方式 ,所 有 数据 提供 节点 直接 将 数据 发 
送 给 新 生 节 点 ,所 有 参与 恢复 的 节点 构成 一 个 以 新 生 节 点 为 中 心 的 星 形 结构 。 星 形 数据 恢 
复方 法 简单 直观 ,但 是 中 心 节点 容易 成 为 性 能 的 瓶颈 。 

现 有 的 数据 恢复 技术 大 部 分 都 是 基于 树 型 数据 修复 方法 ,系统 会 先 构建 覆盖 所 有 参与 
恢复 的 节点 且 以 新 生 节 点 为 根 的 恢复 树 。 在 恢复 过 程 中 , 叶 节 点 先 将 自己 的 数据 乘 以 相应 
的 系数 ,然后 将 其 向 上 传输 给 自己 的 父 节点 ,内 部 节点 收取 其 所 有 子 节点 发 送 的 数据 并 将 这 
些 数据 和 自己 的 数据 进行 一 定 的 组 合计 算 , 再 将 计算 结果 传输 给 自己 的 父 节 点 …… 以 此 类 
推 ,直至 最 终 到 达 恢 复 树 的 根 节点 。 根 节点 将 收 到 的 所 有 数据 进行 组 合计 算 后 就 可 以 恢复 
出 失效 数据 。 

根据 恢复 树 构 造 方法 的 不 同 , 现 有 数据 恢复 技术 可 以 分 为 两 大 类 : 一 类 是 带宽 感知 的 
数据 恢复 技术 ,这 种 方法 根据 网 络 带宽 来 构建 恢复 树 ,比如 树 型 恢复 方法 和 星 型 恢复 方法 的 
数据 传输 结构 就 是 基于 带宽 感知 ; 一 类 是 拓扑 感知 的 数据 恢复 技术 ,依据 网 络 拓扑 来 构建 
恢复 树 。 

1. 带宽 感知 的 数据 恢复 技术 

2009 年 ,Li 等 人 中 提 出 基于 带宽 感知 的 数据 恢复 技术 。 这 种 方法 主要 考虑 到 大 规模 
分 布 式 系 统 往 往 是 异 构 的 ,节点 的 性 能 以 及 网 络 带 宽 存 在 差异 ,因此 试图 尽量 利用 网 络 中 的 
高 可 用 带宽 达到 提高 数据 传输 速度 .缩短 修复 时 间 的 目的 。 他 们 的 研究 结果 表明 ,采用 以 节 
点 间 可 用 网 络 带宽 作为 边 权 重 的 最 大 生成 树 作 为 恢复 树 , 可 以 极 大 地 减少 数据 修复 时 间 。 
相 比 于 星 型 数据 修复 方法 ,带宽 感知 的 数据 修复 方法 将 修复 时 间 缩 短 了 一 半 。 

Li 等 人 "9 又 将 充分 利用 可 用 带宽 的 思想 引入 到 再 生 码 技术 中 ,提出 了 基于 再 生 码 的 树 
型 数据 修复 方法 RCTREE。 为 了 更 加 有 效 地 利用 系统 中 的 可 用 带宽 ,加 速 多 节点 同时 失效 
情况 下 的 数据 恢复 ,Sun AE ADU ET. Li 等 人 5 的 数据 修复 方法 ,提出 了 一 种 带宽 感知 的 
并 行 数据 修复 方法 TPR(Tree-structured Parallel Regeneration) 。 当 多 个 节点 同时 失效 时 ， 
TPR 方法 会 以 各 新 生 节点 为 根 ,分 别 构建 多 个 恢复 树 ,并 行 地 对 失效 节点 进行 恢复 。 

2. 拓扑 感知 的 数据 恢复 技术 

基于 拓扑 感知 的 数据 恢复 技术 的 基本 思想 是 通过 构造 与 物理 拓扑 相符 的 恢复 树 ,来 减 
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少数 据 恢复 时 在 网 络 拓 扑 的 高 层 链 路 上 传输 的 数据 量 。 目 前 ,最 常见 的 网 络 拓扑 仍然 为 多 
层 的 树 形 结构 "5 , 申 下 到 上 依次 为 由 机 架 交 换 机 (Top of Rack. TOR) 组 成 的 边界 层 
(EdgeLayer) ,由 聚合 交换 机 组 成 的 数据 聚合 层 (Aggregation Layer) 由 核心 交换 机 和 路 由 
器 组 成 的 核心 层 (Core Layer)。 树 形 网 络 的 突出 问题 是 高 层 的 带宽 往往 非常 紧张 ,目前 部 
署 的 网 络 中 边界 层 的 总 带宽 仍然 为 核心 层 的 4 一 10 fi, 。 近 来 有 关 数 据 中 心 网 络 负载 
的 研究 "中 均 表 明 ,核心 层 链 路 的 利用 率 是 最 高 的 。 因 此 ,如 果 能 够 有 效 减 少 核心 层 的 带 
宽 消 耗 , 将 极 大 地 提高 系统 的 整体 性 能 。 

针对 此 问题 ,Zeng FAC A Zhang 等 人 5 吧 提出 了 拓扑 感知 的 数据 恢复 技术 ,以 降低 数 
据 恢 复 时 占用 的 核心 网 络 带宽 。 这 种 数据 恢复 技术 的 基本 思想 是 ,将 距离 较 近 的 编码 块 (如 
处 于 同一 个 机 柜 中 的 编码 块 ) 先 就 近 组 合 ,然后 再 发 送 到 更 远 的 节点 进行 进一步 的 组 合 , 直 
至 最 终 汇 人 新 生 节 点 。 这 样 就 可 以 逐步 减少 在 网 络 拓扑 高 层 中 传输 的 数据 量 , 降 低 核心 带 
宽 消耗 ,从 而 提高 数据 修复 效率 ,并 降低 数据 修复 对 整个 系统 性 能 造成 的 不 良 影响 。 他 们 的 
研究 结果 表明 ,基于 拓扑 感知 的 树 形 数 据 恢复 方法 能 够 有 效 降 低 网 络 拓 扑 中 高 层 的 数据 传 
输 量 。 

基于 带宽 感知 的 数据 恢复 技术 虽然 在 理论 上 非常 吸引 人 ,但 是 存在 难以 克服 的 缺点 。 
首先 ,分 布 式 系统 中 节点 间 的 带宽 是 实时 动态 变化 的 ,对 带宽 的 测试 成 本 高 且 难 以 获得 精确 
的 结果 ; 其 次 ,该 类 技术 只 是 将 数据 传输 导向 到 较 快 的 链 路 ,并 没有 降低 数据 恢复 的 负载 ， 
所 以 不 能 有 效 提升 总 体 的 数据 恢复 效率 。 此 外 ,很 多 研究 工作 涉及 的 网 络 模型 也 与 实际 网 
络 不 太 相符 。 相 对 而 言 , 基 于 拓扑 感知 的 数据 恢复 技术 更 加 具有 可 操作 性 。 但 是 ,该 方法 需 
要 由 交换 机 来 完成 恢复 过 程 中 的 数据 合并 ,交换 机 需要 支持 数据 运算 ,也 需要 设计 专门 的 底 
层 通 信 协 议 , 因 此 限制 了 基于 拓扑 感知 的 数据 恢复 技术 在 实际 系统 中 的 应 用 。 


8.5 其 他 相关 研究 


除了 以 上 介绍 的 数据 备份 与 恢复 技术 ,还 需要 研究 数据 更 新 时 的 更 新 策略 、 备 份 数据 时 
怎样 去 元 余 而 不 损害 数据 的 容错 能 力 等 相关 问题 。 

基于 多 副本 的 备份 技术 中 ,数据 更 新 需要 对 所 有 副本 进行 更 新 ,可 以 采取 只 更 新 修改 的 
数据 块 的 策略 。 基 于 纠 删 码 的 备份 方案 中 ,一 个 数据 块 关联 着 较 多 的 校 验 块 ,导致 数据 更 新 
时 需要 同时 更 新 较 多 的 块 ,不仅 需要 大 量 的 数据 传输 和 写 入 ,也 使 保持 数据 的 一 致 性 面临 挑 
战 。 依 据 更 新 方式 ,可 将 现 有 纠 删 码 容错 技术 中 的 数据 更 新 方法 分 为 3 种 : 替换 式 更 新 方 
法 、 追 加 式 更 新 方法 和 混合 式 更 新 方法 。 关 于 纠 删 码 的 研究 工作 可 以 参考 文献 [39]。 

在 数据 备份 领域 ,元 余数 据 是 海量 的 。 为 了 节省 存储 资源 ,备份 数据 去 元 也 是 一 个 研究 
热点 "中 。 为 了 进一步 说 明 消 除 元 余数 据 的 重要 性 , 夏 文 博士 在 其 博士 学 位 论文 中 中 给 出 
了 主流 的 存储 研究 机 构 ( 微 软 .EMC、IBM 等 ) 公 布 的 真实 存储 系统 中 的 元 余数 据 负 载 ,如 
表 8-2 所 示 。 
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表 8-2 主流 研究 机 构 公布 的 大 规模 存储 系统 中 的 元 余数 据 负 载 


研究 机 构 | ”数据 源 岂 处 ”| 总 大 小 | mane | 压缩 率 
用 户 内 文件 级 去 重 约 21% 
用 户 内 SKB 块 级 去 重 约 42% 
m 857 个 用 户 桌 面 文件 系统 162TB DTI ETT ET. 75 50% 
用 户 间 SKB 块 级 去 重 2g 68% 
文件 级 去 重 0~16% 
15 个 MS 服务 器 文件 系统 6.8TB MKBAGEE 15% ~90% 
约 1 万 个 商用 备份 存储 TUO 8KB 块 级 去 重 69%~93% 
EME RK 8KB 块 级 去 重 85%~97% 
差 量 压缩 (去 重 后 ) 66% ~82% 
SPAS RAE id GZIP 压缩 (去 重 后 ) TA -87% 
美 因 茨 大 学 En 1212TB 8KB 块 级 去 重 20% ~30% 
IBM oo aoe 44TB DEAFLAT 压缩 18% ~53% 


微软 研究 院 于 2011 年 公布 了 其 收集 的 将 近 900 个 用 户 桌 面 文件 系统 的 元 余数 据 负 
BO) ,其 中 个 人 的 文件 系统 中 平均 存在 着 约 40% 的 重复 数据 ,用 户 之 间 共 享 的 重复 数据 也 
高 达 68% ,数据 块 级 去 重 往 往 比 文件 级 去 重 多 找到 约 20% 的 重复 数据 。 微 软 研究 院 于 
2012 年 公布 的 微软 桌面 服务 器 文件 系统 的 元 余数 据 负载 C9 显示, 微软 服务 器 文件 系统 中 
的 宛 余数 据 更 为 丰富 ,为 15 儿 一 90%。 基 于 这 一 观察 ,微软 公司 在 2012 年 推出 的 Window 
Server 8 产品 中 添加 了 数据 去 重 功能 来 提高 存储 效率 5 。 

EMC 数据 备份 研究 团队 于 2012 年 公布 了 约 1 万 个 商用 备份 存储 系统 的 元 余数 据 负 
AU ,结果 显示 备份 系统 中 的 宛 余数 据 更 为 丰富 ,数据 去 重 技术 消除 的 宛 余数 据 平均 高 达 
80% 以 上 ,这 就 意味 着 可 以 帮助 用 户 节 省 4/5 的 存储 空间 。 此 外 , 差 量 压缩 技术 和 传统 的 压 
缩 技术 (GZIP 中 ) 则 进一步 消除 了 数据 去 重 后 的 元 余数 据 "] 。 德 国美 因 茨 大 学 (全 称 : 德 
国美 因 茨 约翰 内 斯 - 古 腾 堡 大 学 ,Johannes Gutenberg-University Mainz. Germany) 也 于 
2012 年 公布 了 其 调查 的 欧洲 4 个 高 性 能 计算 数据 中 心 的 元 余数 据 负 载 " ,其 结果 显示 重复 
数据 在 科学 计算 这 种 数据 中 心 场合 也 占有 20% ~ 30% AY EG A). Sb. IBM 研究 院 于 2013 
年 公布 的 研究 数据 "还 表明 传统 的 经 典 压缩 技术 DEALA TES") (联合 了 哈弗 曼 编码 与 
字典 编码 的 压缩 算法 ) 也 可 以 节省 18% 一 53% 的 存储 空间 。 

上 述 各 大 研究 机 构 公布 的 数据 表明 ,现在 的 大 规模 的 存储 系统 中 广泛 地 存在 元 余数 据 。 
因此 ,有 效 地 消除 存储 系统 中 的 元 余数 据 有 着 极 大 的 应 用 价值 。 

目前 ,常用 的 元 余数 据 消除 技术 包括 了 传统 的 无 损 数 据 压缩 技术 "中 有 损 数 据 压缩 
技术 "5, 差 量 压缩 技术 中 数据 去 重 技 术 "9 等 。 数 据 去 重 技术 (Data Deduplication ,重复 
数据 删除 ) 是 一 种 通过 大 规模 地 (比如 文件 级 、8KB 大 小 的 数据 块 级 ) 识 别 和 消除 元 余数 据 ， 
从 而 降低 数据 存储 成 本 的 重要 技术 。 数 据 去 重 技术 相对 于 传统 的 压缩 技术 而 言 ,元 余 
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消除 的 粒度 更 大 ,速度 也 更 快 。 由 于 该 项 技术 迎合 了 数据 规模 的 爆炸 式 增长 的 趋势 ,满足 了 
用 户 对 元 余数 据 删除 的 吞吐 率 的 需求 ,所 以 不 管 是 学 术 研 究 机 构 , 还 是 各 大 存储 厂商 ,都 非 
常 看 好 数据 去 重 技术 的 发 展 前 景 。 此 外 , 差 量 压缩 技术 作为 一 种 针对 相似 数据 的 压缩 技术 ， 
可 以 通过 计算 相似 数据 的 修改 部 分 ( 差 量 ) 来 消除 数据 元 余 。 由 于 数据 去 重 技术 只 能 识别 完 
全 重复 的 数据 ,而 差 量 压缩 能 够 有 效 地 识别 并 消除 非 重 复 但 是 相似 数据 中 的 元 余 , 所 以 差 量 
压缩 作为 数据 去 重 的 一 种 补充 的 压缩 技术 ,在 近 几 年 也 引起 了 广泛 的 关注 。 

Li 等 中 和 Xia 等 59 均 提出 先 采 取 一 种 粗 粒 度 的 方法 对 数据 进行 预 处 理 , 然 后 采取 另 
外 一 种 细 粒 度 的 方法 对 数据 进行 处 理 , 从 而 混合 不 同 的 去 元 余 方法 提高 系统 性 能 。 关 于 重 
复数 据 删 除 的 相关 研究 工作 可 以 参考 文献 [93,94] 。 


8.6 举例 : 基于 喷泉 码 的 数据 备份 与 恢复 


以 上 各 节 对 数据 备份 与 恢复 技术 做 了 介绍 ,本 章 将 引用 一 个 数据 备份 与 恢复 系统 作为 
实例 对 以 上 技术 进行 阐述 。 该 实例 来 源 于 作者 之 前 的 研究 工作 [5? 。 该 项 研究 工作 以 喷 
泉 码 作为 数据 编码 技术 对 原始 数据 进行 编码 ,详细 说 明 当 发 生 数据 失效 时 ,如 何 定位 失效 位 
置 ,如 何 对 数据 进行 恢复 ,并 对 数据 恢复 的 效率 进行 分 析 。 

喷泉 码 是 一 种 无 固定 码 率 的 线性 码 ,假定 原来 有 A 个 数据 分 组 ,那么 将 这 个 数据 分 
组 通过 线性 变换 组 成 个 数据 分 组 ,再 从 个 数据 分 组 中 任 取 k'(k' 三 k) 个 数据 分 组 将 必 
能 得 到 原始 & 个 数据 分 组 。 喷泉 码 具备 分 布 式 存储 的 特点 ,但 是 喷泉 码 在 GF(2) 上 构造 的 
生成 矩阵 可 逆 性 低 , 因 而 导致 译 码 复杂 度 非 常 高 。 通 常 ,可 以 通过 增加 生成 矩阵 G 的 位 长 
保证 G 中 任意 & 阶 方 阵 可 逆 。 由 文献 [98] 定 理 1,2 可 知 , 当 & 一 100 H g=2” ,那么 & 阶 方 
阵 非 奇 异 的 概率 p 守 10“。 此 类 方法 存在 的 缺点 是 ,一 旦 数据 存在 少量 自 改 ,其 译 码 效率 会 
大 大 降低 。 

下 面 将 从 编码 方法 、 错 误 检 测 方法 和 数据 恢复 等 方面 对 该 系统 进行 介绍 。 


8.6.1 基于 噶 果 码 的 编码 方法 


该 数据 备份 系统 假定 用 户 的 数据 以 文件 方式 存储 。 在 数据 编码 阶段 ,首先 将 文件 下 分 
割 成 数据 块 D, Dost Dn ,然后 逐次 对 原始 数据 块 D; 利用 扩展 密 钥 (p,q) 转换 成 相应 的 
扩展 信息 预 编码 块 X;, 并 经 过 生成 矩阵 G 编码 成 码 元 C, CC, 二 X;G)。 译 码 过 程 中 ,利用 
C; 中 的 任意 2 列 组 成 译 码 元 0 ,经 恢复 矩阵 P 可 得 到 相应 的 信息 元 D;(D; 一 QP”。 

车 DixiGixt Coa A G 可逆, 则 DCG ”!。 当 G 为 kXn WHEE HP n>, 
D..46,x, = Cox D= D ,De D Ys Di = asdas dg) GG=(6 GaG 
Gi=(gusBus sgu) C=C, Crs, Cy) C; = CCC ea) :由 于 cy =dagyt 
digo t otd mg mj :因此 在 C HER k 列 组 成 译 码 元 8 ,在 G 中 取 相 应 的 & 列 组 成 译 码 矩 
E Poa RE P Wi. RA DP, 

当前 面临 的 主要 问题 是 如 何 使 生成 矩阵 G 中 任 取 k UBER LAS EP, 
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德 蒙 矩阵 (Vander Monde Matrix) 即 满足 任意 列 所 组 成 的 方 阵 可 道 , 只 要 满足 初始 生成 
元 不 相等 即 可 。 dE V—(2,.2; 2,042562, 0,47€ (1,2. 2. Ha; a; G7) MAS 


o 0 o 
a? ab o a 
ai ai a, 
1 2 E 

G= : 
af gt at? 


因此 有 任意 的 & IREA, FF ALE AE k 足够 大 ,就 能 对 任意 大 的 文件 进 
行 编码 。 但 是 随 着 的 增 大 ,a? 的 值 呈 指数 增长 ,因此 生成 矩阵 所 占用 的 空间 将 变 得 越 来 
越 大 ,所 需要 存储 的 位 也 越 来 越 多 。 而 在 实际 应 用 时 ,为 了 保证 足够 的 宛 余 , 整 个 生成 矩阵 
G 的 行 数 不 可 能 无 限制 地 增长 。 

X a, =2,k =8 Hf a} 需要 Shits 的 存储 空间 。 假 定 存 储 位 为 8 位 ,那么 当 a; 取 aj ,a;， 
ojEZ .k—A4Wf n6; 4 k=3 htn <15; 4R=2 时 ,n255。 因 此 在 不 超过 8 位 的 情 
BUT , 范 德 蒙 矩阵 最 大 的 可 选 维 数 分 别 为 4X6.3X15 和 2X255。 鉴 于 宛 余 量 的 考虑 ,本 文 
生成 矩阵 G 的 行 数 设 为 2。 

由 于 恢复 矩阵 P 只 能 为 2X2 的 方 阵 , 所 以 要 使 D,,x. 能 够 得 到 恢复 ,那么 D 中 的 列 
c=2, H. G,., 中 行 &>2, 因 此 必须 对 D 进行 线性 扩展 ,使 得 D A D nxe 转变 为 D,x。 本 文 
考虑 到 d 二 2, 如 果 选 择 生成 矩阵 的 行 值 * GE «HE TE k 行 中 构造 任意 的 d 阶 方 阵 可 逆 , 则 
会 导致 扩展 位 构造 过 于 复杂 。 由 于 二 进 制 中 位 长 为 3 且 不 为 零 向 量 的 个 数 为 7, 因 此 选择 
k—3.n—7 构建 任意 2 阶 可 道 矩 阵 。 本 文 使 用 线性 扩展 将 信息 元 D 扩展 成 预 编码 块 X, 扩 
展 方法 如 下 。 

由 于 D=(D,,D,), 要 将 其 扩展 为 预 编码 块 和 = (X,,X,,X;), 其 中 相应 有 X =D, 
X,=D,.X;=pD,+qD2+p.q WY RRA. G=(G,.G..G3)". h F XG=C. fant > R= 
(G+ pG3,G2+qG;)" ,因此 XG —C 相应 地 可 转化 为 DR 二 C。 在 C 中 任 取 线性 无 关 的 两 
列 组 成 译 码 元 Q .同时 在 R 中 取 相 应 的 两 列 组 成 恢复 矩阵 P, 当 恢复 矩阵 P 可 逆 则 有 D = 
QP“。 要 使 恢复 矩阵 P 可 逆 , 扩 展 密 钥 p ,gq 必须 具备 何 种 条 件 ,下面 将 对 此 进行 分 析 。 

令 D=(ai,as) 503 — pa; t qa; ,那么 D 可 扩展 为 六。 4 X —(a,.a;.a;) 


000 1 1 1 1 
G—|01 100 1 1 
10 1010 1 


任 取 G 中 两 列 , 记 作 了 


因为 XG 二 C, 所 以 有 XT=Q,0==(B1,B,) 且 QSC。 当 


m on 2 
az 十 gas b; qb; 
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DP 一 Q。 因 此 只 要 P we RE D—QP " 便 可 得 到 D。 由 于 
r-|? 0 b 1 l+p 3 | 
q 1 1+@q 0 q 1 1 十 9 

H PSR, 所 以 要 求 尺 中 任意 两 列 可 逆 , 即 任意 两 列 所 组 成 的 行列 式 不 为 0。 所 以 ,要 同时 满 
Rp 0.qx50. p q.p leq l.pt+q#—l1,p¥qtl.qg#ptl}. Alt p.qEZ*, 
|p—q|22 时 ,R 中 任意 2 Bro PENT oi. 

首先 将 原始 数据 D ne 经 扩展 密 钥 (p,q ) 扩 展 得 到 预 编码 块 XX, ,然后 将 预 编码 块 X 
经 编码 矩阵 Gsxy 编码 得 到 码 元 Cx; ,最 后 将 码 元 C 与 生成 矩阵 G 按照 列 对 应 进行 组 合 , 记 
为 码 块 。 其 编码 过 程 如 图 8-4 所 示 。 从 码 块 中 任 取 2 列 ( 比 如 选取 第 2 列 和 第 5 列 ) 分 别 组 
成 译 码 元 8 与 恢复 矩阵 PP, 由 D—QP ， 即 译 码 公 式 得 到 原始 数据 D. NOS G 是 公开 存在 
且 已 知 的 ,所 以 实际 上 我 们 只 需 将 编码 码 元 C 按 编号 存储 即 可 。 相 应 的 理想 译 码 过 程 如 
图 8-5 所 示 。 


XG=C [x] 
X, X, X blockS 
1 1 2 151 7 
: Bp) 
Es 
x Gy Pod G 
S 
s NE 
一 ý 一 
m 1 I 
Dı D, C, C; i Cs C; 
1 1 1 1 
2| | 2| | | 
D 1 1 
p Wi} |e 
中 fi 
中 {i 
m m | | i i 
图 8-4 数据 扩展 及 编码 图 8-5 数据 转换 及 译 码 
用 户 存 储 数据 时 ,随机 生成 符合 条 件 的 扩展 密 钥 对 数据 进行 编码 ,然后 销毁 扩展 密 钥 。 


当 用 户 需要 从 服务 器 还 原 数 据 时 ,必须 输入 存储 过 程 中 用 到 的 扩展 密 钥 ,同时 设 定 输入 扩展 
密 钥 的 上 限 次 数 。 如 果 在 允许 次 数 内 没有 正确 地 输入 扩展 密 钥 ,那么 认为 此 用 户 并 非 原 数 
据 拥有 者 ,因此 锁定 其 数据 并 禁止 其 译 码 ,从 而 达到 保护 用 户 数据 隐私 的 目的 。 


8.6.2 错误 检测 方法 


数据 进行 编码 存储 ,在 读 取 数 据 时 ,怎样 发 现 数 据 是 否 错误 是 一 件 极其 重要 的 事情 。 在 
对 数据 以 基于 喷泉 码 的 方法 进行 编码 后 ,将 采用 以 下 方法 进行 错误 检测 。 
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假定 编码 前 的 原始 数据 D 是 完整 无 误 的 ,那么 其 相应 的 预 编 码 X 也 是 正确 的 。 因 此 ， 
只 考虑 编码 后 的 数据 发 生 错误 的 情况 。 在 本 方案 中 ,G 是 可 以 公开 存放 的 ,因此 发 生 错误 的 
只 可 能 是 码 元 C. 

假设 码 元 C 发 生 错误 , 且 假 设 AC 为 错误 部 分 ,错误 的 码 元 记 为 C" =C+AC, AA Q= 
(Ci,C;), 其 中 i,jE(1,2,…,7)。 当 C 中 第 i 行 发 生 错 误 时 ,那么 相应 地 有 Q 中 第 i 行 也 
发 生 错 误 ,AQ 为 @ 中 所 包含 的 错误 部 分 , 记 错 误 的 O” —Q-- AQ ,其 译 码 过 程 如 图 8-6 所 
m. D'—Q'P'—(QAQ)P '=D+ AD (其 中 AD 为 译 码 过 程 中 所 包含 的 错误 信息 )， 
因此 译 码 得 到 的 数据 D * 所 包含 的 个 块 在 第 i 个 元 素 均 发 生 错 误 。 因 为 不 能 得 知 译 码 结 
果 是 否 正 确 ( 即 是 否 译 码 得 到 原始 数据 D) ,所 以 错误 检测 显得 非常 重要 。 

错误 检测 分 成 初次 检测 与 逆向 检测 两 步 ,如 图 8-7 所 示 。 初 次 检测 只 对 P 进行 检测 ,其 
原理 如 下 : 由 于 XG 二 C, 并 且 G 中 任意 2 列 线性 无 关 , 因 此 从 编码 块 中 任 取 2 列 , 其 中 

P=(Ri,R;)), Q-(C.Cp. izj Hij € (1,2,.,7) 


block2 — blocks 


pj P. 1 
po 
1 Di D 
2 1 
2 
D 
1 
m 
m 
图 8-6 仅 译 码 元 Q 发 生 自 改 的 译 码 结果 图 8-7 自 改 检测 原理 


理想 情况 下 译 码 矩 阵 P 绝对 可 逆 , 因 此 首先 对 P 进行 可 逆 检 测 。 如 果 P 不 可 逆 , 那 么 
P 中 存在 算 改 ( 即 p ,g 不 正确 ); 否则 实行 逆向 检测 。 

逆向 检测 原理 : 理想 情况 下 OP =D ,由 于 未 经 检测 不 知道 译 码 结果 是 否 准 确 ,因此 
假设 OP“ =A ,再 从 该 编码 块 中 取 不 同 于 译 码 元 的 8 中 任意 一 列 编码 信息 分 别 组 成 校 验 元 
B 和 二 次 生成 元 $ ,其 中 

S—R,.B—C,. kE(l,2,%,7) BR € P. C, EO 

TH ASST 得 到 逆 元 T; 比较 逆 元 T FRIST B AIR TAB OE PERI BE RE 

在 错误 ,否则 认为 没有 错误 , 即 译 码 成 功 。 
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那么 错误 检测 的 准确 率 能 否 满足 要 求 ? 下 面 将 对 此 进行 分 析 。 
在 错误 检测 过 程 中 存在 4 种 情况 : 正确 的 肯定 、 正 确 的 否定 、 错 误 的 肯定 和 错误 的 否 
定 。 其 中 误 码 是 发 生 在 正确 的 否定 和 错误 的 肯定 两 种 情况 下 。 
为 了 便于 分 析 ,我 们 将 矩阵 校 验 过 程 看 成 一 个 长 度 为 ”的 组 合 中 随机 抽样 的 过 程 , 即 
MK n 长 码 字 中 取 十 1 个 码 字 完成 校 验 ,排列 中 的 每 个 元 素 有 27 个 值 可 取 , 即 码 字 的 值 的 集 
APB q=2. MA 个 错误 元 素 的 组 合 n 中 取出 的 & 十 1 个 元 素 组 成 的 排列 完全 正确 的 概 
率 为 P, ,取出 十 1 个 元 素 组 成 的 排列 有 m 个 错误 的 概率 为 P, ,那么 PP,,P 分 别 如 公 
式 (8-1) 和 公式 (8-2) 所 示 。 
Eo 
E 


CC» 


P„,= 


P (8-1) 


(8-2) 


cm 

假定 x 代表 译 码 信息 ,C 代表 码 元 ,那么 p(x 1C) 表 示 译 码 信息 x 属于 码 元 C 的 概率 ; 
相反 的 有 1 一 p(x1C) 表 示 译 码 信 息 zx 不 属于 码 元 C 的 概率 。 译 码 信息 D 与 信息 元 D 的 
差距 记 作 AQ. BU AQ=D* —D , %4 AQ —0 时 认为 译 码 无 误 , 和 否则 认为 译 码 有 误 。 因 此 ,在 检 
验 正确 的 条 件 下 被 判定 为 错误 的 概率 Pw 和 在 校 验 错误 的 条 件 下 被 判定 为 正确 的 概率 ， 
P qu, 则 可 分 别 表示 为 : Pu, =P, (AQ 0ID—QP M P pos —P,(^Q—0lD' =Q" P^). 

当 挑选 上 十 1 个 元 素 完全 正确 但 检测 为 错误 的 概率 Pu 、 当 挑选 的 十 1 个 元 素 中 有 
个 错误 元 素 却 被 检测 正确 的 概率 P Lu 的 计算 公式 分 别 如 公式 (8-3) 与 公式 (8-4) 所 示 。 

P us mc E (8-3) 
q 
1 

Cin X(q-—D* 
因此 误 检测 的 概率 P, 满足 公式 (8-5) 。 


P ps (8-4) 


k+l 


a 
Pa =P, X P peg + Pm X P fp =n X (1 1/qh") + 


cH 
mi 人 AH [CR CkHom . 1 
cH C™,(q—1” (8-5) 
m=1 ^n -k+ Sq 


在 给 定 q 的 条 件 下 ,运用 Matlab 分 析 参 数 nn.k Re XE P, KISENA F RHE q— 
256 时 通过 计算 得 到 的 ) 。 当 抽样 数据 量 & 一 定时 , 误 检测 概率 Po 与 算 改 数据 量 e 及 总 数 
据 量 的 关系 如 图 8-8 所 示 。 由 图 8-8 WA. k e 一 定时 , 误 检测 概率 与 成 正比 ; H k, 
n 一 定时 , 误 检测 概率 与 e 成 反比 。 

在 算 改 数据 量 。 不 变 的 条 件 下 , 误 检 测 概率 P, 与 抽样 数据 量 & 及 总 数据 量 ” 的 关系 
如 图 8-9 所 示 。 由 图 8-9 可 知 ,在 e、k 一 定时 ,P。 与 n 的 大 小 成 正比 ; 4 eun 一 定时 ,P。 
k 成 反比 。 
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在 抽样 数据 量 (k+1) 一 定时 ， 误 检测 概率 (P。) 在 抽样 数据 量 (k+1) 一 定时 ， 误 检测 概率 (P。,) 
与 纂 改 数据 量 (m) 及 总 数据 量 (m) 的 关系 与 臭 改 数据 量 (m) 及 总 数据 量 (n) 的 关系 


---3 


误 检测 概率 (P。,) 
> 


Aro 总 数据 量 ) 总 数据 最 oD) O 
单位 / 列 单位 / 列 5 6 


9 3.4 
自 改 数据 量 (e) 单位 / 列 ? Breite) 单位 / 列 


(a) 左 视图 (b) 右 视图 
图 8-8 人 为 常量 时 P, 与 mse 的 关系 


在 签 改 数据 量 (e) 一 定时 ， 误 检测 概率 (P) 在 自 改 数据 量 (e) 一 定时 ， 误 检测 概率 (P。) 
与 总 数据 量 (n) 及 抽样 数据 量 (k+1) 的 关系 与 总 数据 量 (m) 及 抽样 数据 量 (kt1) 的 关系 


-r---- 


4 4 
抽样 的 列 数据 量 (e+1) 单位 / 列 抽样 的 列 数据 量 (k+l) 单位 / 列 
(a) 左 视图 (b) 右 视图 
8-9 。 为 常量 时 P, Suk 的 关系 
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在 总 数据 量 n 不 变 的 条 件 下 , 误 检测 概率 P, 与 抽样 数据 量 & 及 算 改 数据 量 e 的 关系 
如 图 8-10 所 示 。 由 图 8-10 可 知 ,在 n、e 定时 ,P Gk 成 反比 ; TE nk 一 定时 ,P。 与 e 成 
反比 。 


在 总 数据 量 (n) 一 定时 ， 误 检测 概率 (P。) 


与 纂 改 数据 量 (e) 及 抽样 数据 量 (k+1) 的 关系 在 总 数据 景 (n) 一 定时 ， 误 检测 概率 (P。) 


与 自 改 数据 量 (e) 及 抽样 数据 量 (k+1) 的 关系 
07 , 
下 村 


0.6 | 
0.5 
0.4 


0.3 


误 检测 概率 (P。,) 


抽样 数据 量 (kt1) S ts 
单位 / 列 MEHR BG) MUP EUSUMO MUI 抽样 数据 量 (t+1) 
mp 
图 (b) 右 视图 ae 


8-10 n ABM P, 与 ek 的 关系 


(a) 左 视 


M p —5.e—2.n—9.q—256 时 ,根据 公式 (8-5) 有 误 检测 的 概率 为 0.083661。 根 据 对 
公式 (8-5) 的 分 析 可 知 ,n,k,e 5j P, 的 关系 如 表 8-3 所 示 。 因 此 可 以 根据 表 8-3 各 参数 与 
误 检 测 概率 的 关系 来 设 定 参 数 n.k 的 值 ,以 提高 检测 准确 率 。 

表 8-3 n,k,e MP, 的 关系 


给 定 条 件 P, 与 第 三 个 变量 的 关系 
nk 为 常量 的 条 件 下 反比 
nse 为 常量 的 条 件 下 反比 
kre 为 常量 的 条 件 下 正比 


只 要 编码 足够 大 ,就 可 以 使 误 检 测 概率 降低 到 所 设 定 的 额定 指标 (Ps 一 1.0X10“)， 
从 而 达到 检 错 要 求 。 


8.6.3 数据 恢复 方法 


错误 检测 的 目标 是 进行 数据 恢复 。 在 本 方案 中 ,错误 只 发 生 在 编码 后 的 数据 块 C 中 ， 
因此 只 需 利用 该 码 块 内 的 码 元 C 和 生成 矩阵 G 进行 译 码 , 当 码 元 C 中 的 算 改 列 数 m 三 4, 该 
码 块 所 包含 原始 数据 D 便 能 得 到 恢复 。 
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假定 编码 数据 块 的 数量 为 number. block. ratio 为 算 改 比例 ,错误 数据 块 的 数量 为 
number,m 为 码 块 的 行 数 ,flag 标记 译 码 状态 , 当 flag(k) 二 0 表示 码 块 中 第 上 行 译 码 有 误 ， 
flag(h) =1 则 表示 第 & 行 译 码 成 功 。check 为 状态 校 验 元 ,只 有 当 译 码 状 态 标记 flag 与 
check 完全 一 致 时 , 才 认 为 译 码 成 功 (通过 flag 与 check 按 位 与 来 验证 flag 与 check 是 否 相 
等 )。 块 搜索 算法 (Block Search Algorithm. BSA) 如下。 


算法 : Block Searching Algorithm 


Ratio=preDesign，number=number_blockxratio, 
check=ones(1,m), N=35, m=pre_row 
— for i=1 to number 
flag = zeros(1, m) 
— . forj-l toN 
在 第 i 个 编码 块 C, 中 提取 译 码 和 矩阵 8,， 并 根据 @ ,的 列 标号 相应 地 取 P) 
if PP 可逆 
根据 2P = 4 求解 信息 元 Ay; 并 在 C 中 选取 任意 一 列 不 属于 译 码 元 的 
Q Hs 为 校 验 元 B， 并 在 译 码 矩阵 中 取 与 B 列 标号 相同 的 列 信息 作为 
生成 元 Ss， 再 利用 4,S=T 得 到 逆 元 7 比较 逆 元 与 校 验 
et 
for (=lto m 
if T(k)--B(k) 
ET 
flag(1, k)=1 


if flag&check—check 
= | part File(/)-R. break 


32: (3:58 Jg. y BAR: «SLE eer T SB GR Be HET ES. PFC CEG i 中 提取 恢复 矩阵 
P, ,如 果 恢 复 和 矩阵 P, 可 逆 , 则 利用 第 i 个 子 码 块 中 相应 的 译 码 元 8, 并 根据 QP7' —A, R 
解 信息 元 4); 并 在 子 码 块 i 中 选取 不 属于 译 码 元 的 Qi 作为 校 验 元 BFE PETS EA B 
列 标号 相同 的 列 信息 作为 二 次 生成 元 $ AA ASST, 得 到 逆 元 T;; HEB TC T, 与 校 验 
元 B ,进行 重 构 检 测 ; 如 果 T, (GE = B GO ,将 AC(k) 中 的 信息 存储 到 RC(k) 中 , 当 R 存储 满 则 
译 码 成 功 ( 即 译 码 状态 标记 flag 与 状态 校 验 元 check 完全 一 致 ), 否 则 直到 码 块 i 中 取 到 所 
有 恢复 矩阵 中 的 Pa 与 译 码 元 Qu (由 于 从 7 中 选择 3 个 数 的 组 合 为 35, 因 此 每 个 数据 块 的 
最 大 搜索 次 数 N 二 35。 当 文件 比较 大 时 ,需要 译 码 的 数据 块 增加 ,但 由 于 块 间 信息 相互 独 
立 , 因 此 译 码 呈 线 性 增长 ) ,如 果 仍 不 成 功 则 表明 译 码 失败 。 


8.7 RENE 


本 章 介 绍 了 云 存 储 系 统 中 的 数据 备份 与 恢复 技术 。 因 为 云 存 储 与 分 布 式 存储 系统 中 的 
备份 与 恢复 技术 差异 较 小 ,所 以 介绍 的 这 些 内 容 也 都 是 分 布 式 存储 系统 下 的 研究 工作 。 首 
先 对 备份 系统 分 类 与 性 能 指标 进行 了 概述 ; 然后 介绍 了 纠 删 码 技术 的 原理 和 发 展 , 介 绍 了 
基于 多 副本 与 基于 纠 删 码 的 备份 技术 及 其 对 比 , 简 单 介绍 了 数据 恢复 技术 及 一 些 相关 研究 
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工作 ; 最 后 以 一 个 基于 喷泉 码 的 数据 备份 与 恢复 系统 为 例 阐述 了 一 个 完整 的 数据 备份 与 恢 
复 过 程 。 
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大 数据 时 代 的 云 存储 安全 


中 国 工程 院 李 国 杰 院士 在 接受 《湖北 日 报 ) 记 者 采访 时 表示 :“ 数 据 是 与 物质 、 能 源 一 样 
重要 的 战略 资源 ,数据 的 采集 和 分 析 涉及 每 一 个 行业 ,是 带 有 全 局 性 和 战略 性 的 技术 。 战 争 
可 能 从 过 去 的 靠 子 弹 和 导弹 发 展 到 靠 数 据 决 胜 的 时 代 。” 

网 上 有 一 段 非常 流行 的 有 关 “ 恶 怖 的 大 数据 ?的 幽默 段子 : 

某 必 胜 客 店 的 电话 铃 响 了 ,客服 人 员 拿 起 电话 。 


客服 : 必胜客 。 您 好 ,请 问 有 什么 需要 我 为 您 服务 ? 

顾客 : 你 好 ,我 想 要 一 份 …… 

客服 : 先生 ,烦请 先 把 您 的 会 员 卡 号 告诉 我 。 

顾客 : 16846146 x 

客服 : 陈 先生 ,您 好 ! 您 是 住 在 泉州 路 一 号 12 楼 1205 E ,您 家 电话 是 2624 *xx， 您 公 
司 电 话 是 4666 xxx ,您 手机 号 是 1391234 *xxx 。 请 问 您 想 用 哪 一 个 电话 付费 ? 

顾客 : 你 为 什么 知道 我 所 有 的 电话 号 码 ? 

客服 : 陈 先 生 , 因 为 我 们 联机 到 CRM 系统 。 

顾客 : 我 想 要 一 份 海鲜 比萨 …… 

客服 : 陈 先生 ,海鲜 比萨 不 适合 您 。 

顾客 : 为 什么 ? 

客服 : 根据 您 的 医疗 记录 ,您 的 血压 和 胆固醇 都 偏 高 。 

客服 : 您 可 以 试 试 我 们 的 低 脂 健康 比萨 。 

顾客 : 你 怎么 知道 我 会 喜欢 吃 这 种 的 ? 

客服 : 您 上 星期 一 在 国家 图 书馆 借 了 一 本 《 低 脂 健康 食谱 )》。 

顾客 : 好 。 那 我 要 一 份 家 庭 特大 号 比萨 ,要 付 多 少 钱 ? 

客服 : 99 元 ,这 个 足够 您 一 家 六 口吃 了 。 但 您 母亲 应 该 少 吃 , 她 上 个 月 刚 做 了 心脏 搭 
桥 手 术 , 还 处 在 恢复 期 。 

顾客 : 那 可 以 刷卡 吗 ? 

客服 : 


陈 先生 ,对 不 起 。 请 您 付 现 款 ,因为 您 的 信用 卡 已 经 刷 爆 了 ,您 现在 还 欠 银 行 


4807 元 ,而 且 还 不 包括 房贷 利息 
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顾客 : 那 我 先 去 附近 的 提 款 机 提 款 。 

客服 : 陈 先生 ,根据 您 的 记录 ,您 已 经 超过 今日 提 款 限额 。 

顾客 : 算 了 ,你 们 直接 把 比萨 送 到 我 家 吧 , 家 里 有 现金 。 你 们 多 久 送 到 7? 

客服 : 大 约 30 分 钟 。 如 果 您 不 想 等 ,可 以 自己 骑 车 来 。 

顾客 : 为 什么 ? 

客服 : 根据 我 们 的 CRM 全 球 定位 系统 的 车 辆 行驶 自动 跟踪 系统 记录 ,您 登记 有 一 辆 车 
号 为 SB-748 的 摩托 车 ,而 且 目 前 您 正在 解放 路 东 段 华 联 商场 右 侧 骑 着 这 辆 摩托 车 。 

FRE Bp SB 

这 个 段子 体现 出 大 数据 可 以 为 企业 带 来 便利 ,比如 必胜客 的 客服 知道 要 向 顾客 怎样 推 
荐 合适 的 商品 以 及 利用 顾客 的 个 人 信息 提供 解决 方案 ,但 却 让 用 户 的 个 人 隐私 暴露 无 遗 ,其 
至 包括 用 户 的 所 有 电话 、 家 庭 财产 、 家 人 健康 状况 、 活 动 位 置信 息 等 。 如 果 这 些 信 息 被 不 法 
分 子 用 于 非法 用 途 , 会 对 用 户 造成 很 大 的 困扰 ,甚至 危及 个 人 及 家 庭 安 全 。 

无 论 是 美国 斯 诺 登 * 棱 镜 门 ?监听 丑闻 ,还 是 层出不穷 的 诸如 Facebook 等 公司 客户 资料 
泄露 事件 ,都 向 我 们 发 出 大 数据 时 代 下 个 人 隐私 保护 的 预警 。 

大 数据 技术 ,与 其 他 所 有 技术 一 样 , 本 身 无 所 谓 “ 好 ”“ 坏 ”, 故 在 伦理 学 上 是 中 性 的 。 然 
而 使 用 它 的 个 人 、 公 司 、 机 构 是 有 价值 取向 的 ,使 得 大 数据 技术 犹如 一 把 双 刃 剑 , 给 我 们 的 生 
产 、 生 活 及 科研 等 带 来 极 大 便利 的 同时 ,也 带 来 了 诸如 隐私 泄露 的 风险 。 

怎样 在 合理 ,合法 利用 大 数据 改善 人 们 生活 的 同时 ,又 可 以 保障 用 户 隐 私信 息 安全 是 研 
究 者 们 面临 的 一 个 重要 课题 。 

当今 的 大 数据 主要 存储 在 云 中 ,因此 云 存储 安全 是 大 数据 安全 的 基础 。 本 章 将 详细 介 
绍 在 大 数据 时 代 , 云 存储 安全 面临 的 新 问题 和 新 的 解决 方法 。 


9.1 大 数据 概述 


本 节 首 先 介绍 大 数据 的 基本 概念 ,然后 分 析 大 数据 情景 下 的 数据 存储 挑战 ,并 指出 大 数 
据 的 应 用 价值 ,从 而 说 明 大 数据 的 存储 安全 研究 工作 的 理论 意义 与 应 用 前 景 。 


9.1.1 基本 概念 


根据 维基 百科 的 定义 ,大 数据 (Big Data) ,又 称 海量 数据 ,是 指 传统 数据 库 管 理工 具 、 数 
据 处 理 及 应 用 软件 不 足以 处 理 的 大 而 复杂 的 数据 集 。 

合 恩 伯 格 教授 在 其 著作 《大 数据 时 代 ) 忠 中 表达 的 第 一 个 核心 观点 就 是 : 大 数据 即 全 数 
TE CHI nn = AID , 旨 在 收集 和 分 析 与 某 事物 相关 的 “全 部 ”数据 ,而 非 “部 分 "数据 。 

因为 大 数据 不 是 基于 抽样 .而 是 利用 所 有 数据 .所 以 大 数据 包含 的 数据 量 超 出 了 传统 软 
件 在 可 接受 的 时 间 内 处 理 的 能 力 。 

近年 来 随 着 云 计算 ,移动 互联 、 人 工 智能 等 现代 信息 技术 的 高 速 发 展 ,使 得 大 数据 的 采 
集 、 存 储 、 管 理 和 处 理 成 为 可 能 。 
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大 数据 具有 大 规模 (Volume) 、 高 速 性 (Velocity) 、 多 样 性 (Variety) 、 真 实 性 (Veracity)、 
价值 密度 (Value) , 即 常 说 的 5V 特点 (IBM 提出 )。 换 言 之 ,大 数据 的 规模 大 ,要 求 分 析 速 度 
快 ,并 且 大 数据 的 类 型 多 种 多 样 . 其 价值 密度 较 小 ,因此 辨别 难度 大 。 因 为 大 数据 的 真 伪 性 
难以 辨识 ,并 且 呈 碎片 化 存储 ,所 以 需要 经 过 加 工 才 能 显现 出 大 数据 的 价值 。 

由 于 传 感 技术 、 社 会 网 络 和 移动 设备 的 快速 发 展 和 大 规模 普及 ,导致 数据 规模 以 指数 级 
爆炸 式 增长 ,并 且 数 据 类 型 和 相互 关系 复杂 多 样 。 总 体 来 说 ,大 数据 的 来 源 可 分 为 如 下 
3 类 。 

。 人 类 活动 ,人 在 使 用 互联 网 (包括 移动 互联 网 ) 的 过 程 中 所 产生 的 各 类 数据 。 

。 计算 机 ,各 种 计算 机 信息 系统 产生 的 数据 ,多 以 文件 .数据库 、 多 媒体 等 形式 存在 。 

。 物理 世界 ,各 类 数字 设备 所 采集 的 数据 ,比如 气象 系统 采集 设备 所 收集 的 海量 气象 

数据 .视频 监控 系统 产生 的 海量 视频 数据 .医疗 物 联网 源源 不 断 的 健康 数据 等 。 其 
来 源 包括 搭载 感 测 设备 的 移动 设备 、 高 空 感 测 科技 (遥感 )、 软 件 记 录 、 相 机 、 麦 克 风 、 
无 线 射 频 辨 识 (RFID) 和 无 线 感 测 网 络 等 。 

正如 图 灵 奖 获得 者 吉姆 .格雷 (Jim Gray) 在 其 获奖 演说 中 指出 的 那样 : 由 于 互联 网 的 
发 展 ,未 来 18 个 月 新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 也 就 是 每 18 个 月 ,全球 数据 
总 量 就 会 翻 一 番 。 


9.1.2 大 数据 带 来 的 数据 存储 挑战 


2015 年 9 月 ,国务 院 印发 《促进 大 数据 发 展 行动 纲要 》( 以 下 简称 4 纲要 》) ,系统 部 署 大 
数据 发 展 工作 。《 纲 要 》 明 确 指出 ,推动 大 数据 发 展 和 应 用 ,在 未 来 5 一 10 年 打造 精准 治理 、 
多 方 协作 的 社会 治理 新 模式 ,建立 运行 平稳 .安全 高 效 的 经 济 运行 新 机 制 , 构 建 以 人 为 本 、 惠 
及 全 民 的 民生 服务 新 体系 ,开启 大 众 创业 、 万 众 创新 的 创新 驱动 新 格局 ,培育 高 端 智能 、 新 兴 
繁荣 的 产业 发 展 新 生态 。 

大 数据 发 展 工作 的 主要 任务 包括 以 下 三 个 方面 。 

(1) 加 快 政府 数据 开放 共享 ,推动 资源 整合 ,提升 治理 能 力 。 大 力 推动 政府 部 门 数据 共 
享 ,稳步 推动 公共 数据 资源 开放 ,统筹 规划 大 数据 基础 设施 建设 ,支持 宏观 调控 科学 化 ,推动 
政府 治理 精准 化 ,推进 商事 服务 便捷 化 ,促进 安全 保障 高 效 化 ,加快 民生 服务 普 惠 化 。 

(2) 推动 产业 创新 发 展 ,培育 新 兴业 态 ,助力 经 济 转型 。 发 展 大 数据 在 工业 、 新 兴 产 业 、 
农业 农村 等 行业 领域 应 用 ,推动 大 数据 发 展 与 科研 创新 有 机 结合 ,推进 基础 研究 和 核心 技术 
攻关 ,形成 大 数据 产品 体系 ,完善 大 数据 产业 链 。 

(3) 强化 安全 保障 ,提高 管理 水 平 , 促 进 健 康 发 展 。 健 全 大 数据 安全 保障 体系 ,强化 安 
全 支撑 。 

2015 4£ 9 月 18 日 贵州 省 启动 我 国 首 个 大 数据 综合 试验 区 的 建设 工作 ,力争 通过 3 一 5 
年 的 努力 ,将 贵州 大 数据 综合 试验 区 建设 成 为 全 国 数据 汇聚 应 用 新 高 地 、 综 合 治理 示范 区 、 
产业 发 展 聚 集 区 、 创 业 创新 首选 地 ,政策 创新 先行 区 。 

2016 年 3 月 17 日 《中 华人 民 共 和 国 国民 经 济 和 社会 发 展 第 十 三 个 五 年 规划 纲要 》 发 
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布 ,其 中 第 二 十 七 章 “ 实 施 国家 大 数据 战略 ”提出 : 把 大 数据 作为 基础 性 战略 资源 ,全 面 实施 
促进 大 数据 发 展 行动 ,加 快 推动 数据 资源 共享 开放 和 开发 应 用 ,助力 产业 转型 升级 和 社会 治 
理 创新 ; 具体 包括 : 加 快 政府 数据 开放 共享 ,促进 大 数据 产业 健康 发 展 。 

2012 年 ,美国 奥巴马 政府 投资 近 2 亿美 元 推行 (大 数据 的 研究 与 发 展 计划 )。 该 计划 涉 
及 美国 国防 部 、 美 国 卫生 与 公共 服务 部 门 等 多 个 联邦 部 门 和 机 构 , 旨 在 通过 提高 从 大 型 复杂 
的 数据 中 提取 知识 的 能 力 , 加 快 科学 和 工程 的 开发 ,保障 国家 安全 。 该 计划 强调 指出 ,大 数 
据 会 是 世界 未 来 的 “石油 ”。 

大 数据 已 经 被 提升 为 国家 基础 性 战略 资源 ,可 见 其 对 于 国家 发 展 的 重大 意义 。 那 么 在 
大 数据 情景 下 ,数据 存储 有 哪些 需求 呢 ? 

欧洲 核子 研究 中 心 CCERN) 最近 一 次 震惊 物理 界 的 成 果 当 属 利 用 大 型 强 子 对 撞 机 
(LHC) 发 现 了 希 格 斯 玻 色 子 一 一 构成 宇宙 的 最 基本 组 成 部 件 之 一 。 其 高 能 物理 实验 室 的 
阿 特 拉 斯 (ATLAS) 粒子 探测 器 一 一 大 型 强 子 对 撞 机 有 1 亿 5000 万 个 感 测 器 ,每 秒 发 送 
4000 万 张 图 片 。 实 验 中 每 秒 产 生 近 6 亿 次 的 对 撞 , 过 滤 去 除 99. 999% 的 撞击 数据 后 ,得 到 
约 100 次 的 有 用 撞击 数据 中 。 科 学 家 就 从 这 些 数据 中 研究 物质 的 构成 ,包括 暗物质 、 暗 能 量 
以 及 标准 模型 要 寻找 的 “上 帝 粒 子 ” 一 一 希 格 斯 玻 色 子 。 

该 粒子 探测 器 每 秒 产生 的 数据 量 超过 了 任何 其 他 科学 研究 ,包括 基因 组 学 和 气候 科学 ， 
其 数据 分 析 也 更 加 复杂 。 粒 子 物 理学 家 必须 同时 研究 数 百 万 次 的 碰撞 ,以 找到 隐藏 在 其 中 
的 信号 一 一 关于 暗物质 额外 维度 和 新 粒子 的 信息 。 在 以 上 高 能 物理 、 基 因 组 学 .气候 科学 
等 大 科学 的 研究 领域 ,数据 的 存储 需求 是 惊人 的 ! 

大 数据 的 应 用 还 包括 天 文学 .生物 学 ,传感器 网 络 .移动 互联 网 .交通 运输 、 信 息 审查 .大 
社会 数据 互联 网 搜索 引擎 ,军事 侦察 ,金融 \ 健 康 医疗 、 社 交 网 络 、 图 像 视 频 、 大 规模 电子 商 

大 数据 的 大 规模 特点 对 数据 管理 技术 提出 了 挑战 ,Oracle、IBM、Google、 微 软 .SAP 等 
数据 管理 与 分 析 企 业 在 大 数据 处 理 与 分 析 技 术 上 投入 大 量 经 费 ,用 于 开发 大 规模 并 行 处 理 
系统 、 数 据 挖掘 系统 .分 布 式 文件 系统 .分布 式 数据 库 . 可 扩展 的 存储 系统 等 , 比如 
MapReduce, Spark 并 行 处 理 系统 ,BigTable.MongoDB 等 大 型 NoSQL 数据 库 。 

总 结 起 来 ,大 数据 存储 面临 的 挑战 如 下 。 

(1) 数据 结构 特征 复杂 多 样 , 需 要 能 够 高 效 存储 管理 以 及 分 析 处 理 这 类 数据 的 存储 管 
理 与 计算 系统 。 很 多 大 数据 应 用 领域 ,如 社交 网 络 数据 .基因 序列 数据 的 维度 高 ,数据 结构 
复杂 多 样 ,社交 网 络 有 图 数据 .关系 型 数据 以 及 非 结 构 数 据 等 ,基因 序列 每 条 记录 的 维度 可 
以 达到 数 千 万 , 均 对 数据 处 理 与 分 析 提 出 了 极 大 的 挑战 。 

(2) 海量 大 数据 的 处 理 效率 问题 。 此 前 受 限 于 信息 处 理 能 力 , 神 经 网 络 相关 算法 发 展 
迟缓 。 随 着 云 计 算 与 云 存储 平台 的 兴起 ,信息 处 理 能 力 大 幅 提高 ,深度 学 习 算法 如 雨后春笋 
般 涌 现 ,也 解决 了 很 多 此 前 无 法 解决 的 问题 。 但 是 随 着 数据 量 的 爆炸 式 增长 ,各 类 应 用 对 数 
据 处 理 效率 的 需求 也 在 增长 ,计算 效率 的 不 断 提升 仍然 是 大 数据 处 理 面临 的 挑战 。 

(3) 各 种 来 源 、 各 种 类 型 以 及 各 种 数据 格式 的 多 元 数据 的 融合 困难 ,比如 健康 医疗 领 
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域 ,不 同 医 疗 机 构 数据 管理 系统 各 异 ,其 数据 纷繁 复杂 ,怎样 融合 此 类 数据 成 为 一 大 挑战 。 
OD 大 数据 无 论 在 数据 传输 还 是 在 动态 处 理 亦 或 静态 存储 时 ,都 面临 着 安全 风险 ,需要 
提供 多 维度 的 安全 保护 ,包括 数据 机 密 性 、 完 整 性 、 可 靠 性 以 及 可 用 性 等 。 
(5) 充分 利用 大 数据 的 前 提 是 大 数据 的 共享 ,大 数据 共享 时 的 隐私 保护 是 一 大 挑战 。 
此 外 ,大 数据 获取 方式 以 及 来 源 多 样 ,无 论 是 获取 设备 端 , 还 是 网 络 传输 过 程 均 可 能 存 
在 数据 不 完全 可 信 的 问题 ,使 得 获取 的 数据 真 伪 难 辩 , 这 也 给 大 数据 的 利用 带 来 极 大 的 
影响 。 


9.1.3 大 数据 的 应 用 价值 


大 数据 的 应 用 领域 极为 广泛 ,下 面 结合 一 些 实际 应 用 来 说 明 大 数据 给 日 常生 产 、 生 活 带 
来 的 潜在 价值 。 

案例 1: 公共 卫生 

2009 年 爆发 的 流感 病毒 一 一 甲 型 HIN1 流感 ,来 势 迅 猛 , 肆 虐 全 球 。 为 了 减缓 它 的 传 
播 速 度 , 首 先 必须 知道 流感 出 现 的 地 方 。 因 此 ,所 有 国家 都 要 求 医生 在 发 现 甲 型 HINT 流 
感 病例 时 ,要 及 时 告知 当地 疾病 控制 与 预防 中 心 。 但 是 流感 有 一 定 的 潜伏 期 ,有 些 患者 可 能 
并 未 意识 到 自己 患 上 了 流感 ,也 就 不 会 去 医院 。 即 使 是 去 了 医院 ,再 由 医院 将 信息 传递 给 疾 
控 中 心 ,还 需要 时 间 。 所 以 疾 控 中 心 并 不 能 及 时 了 解 到 流感 患 病情 况 ,而 这 类 信息 滞后 会 给 
疾病 预防 与 治疗 带 来 致命 的 后 果 。 

Google 公司 统计 了 流感 期 间 网 上 的 搜索 记录 ,从 中 采集 了 5000 万 条 美国 人 最 频繁 检 
索 的 词 条 ,将 之 与 美国 疾 控 中 心 公布 的 2003—2008 年 季节 性 流感 传播 时 期 的 数据 一 起 , 通 
过 4.5 亿 个 不 同 的 数学 模型 进行 分 析 处 理 , 并 将 处 理 结果 (预测 结果 ) 与 2007 年 .2008 年 美 
国 疾 控 中 心 记录 的 实际 流感 病例 进行 对 比 后 发 现 ,他 们 的 预测 与 官方 数据 的 相关 性 高 
达 97%。 

案例 2: 健康 医疗 

伴随 医疗 卫生 行业 信息 化 进程 的 发 展 ,健康 医疗 大 数据 的 价值 逐渐 显现 。 苹果 公司 的 
传奇 总 裁 史 蒂 夫 。 ed omg im 合 了 大 数据 ,成 为 世界 上 第 一 个 对 自身 所 
有 DNA 和 肿瘤 DNA 进行 排序 的 人 。 对 于 一 个 普通 的 癌症 患者 ,医生 只 能 期 望 其 DNA HE 
列 同 试验 中 使 用 的 样本 足够 相似 。 BE PAM LEA ARIA 个 只 有 一 系列 标记 
的 样本 ,而 是 包括 所 有 基因 序列 的 数据 。 他 们 能 够 基于 乔布斯 的 特定 基因 组 成 , 按 所 需 效果 
用 药 。 如 果 癌 症 病变 导致 药物 失效 ,医生 可 以 及 时 更 换 另 一 种 药 。 乔 布 斯 开玩笑 说 :“ 我 要 
么 是 第 一 个 通过 这 种 方式 战胜 癌症 的 人 ,要 么 就 是 最 后 一 个 因为 这 种 方式 死 于 癌症 的 人 。” 
虽然 他 的 愿望 都 没有 实现 ,但 是 这 种 获得 所 有 数据 而 不 仅 是 样本 的 方法 还 是 使 他 的 生命 延 
续 了 好 几 年 。 

案例 3: 公共 安全 

美国 洛杉矶 警察 局 和 美国 加 州 大 学 合作 ,利用 大 数据 预测 犯罪 的 发 生 。 他 们 采集 分 析 
了 80 年 来 1300 万 起 犯罪 案件 ,采用 算法 对 犯罪 行为 进行 研究 并 预测 ,然后 有 针对 性 地 进行 
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干预 ,成 功 地 将 相关 区 域 的 犯罪 率 降低 了 36 个 百分点 。 

在 美国 ,毒品 问题 被 称 为 美国 社会 的 “癌症 ”。 为 了 解决 这 个 问题 ,他 们 切断 毒品 供 
但 是 却 仍 然 无 法 禁止 毒品 的 泛滥 。 Faced ee te itid gt 
如 大 麻 的 种 植 非常 容易 ,甚至 可 以 在 家 里 种 植 。 在 马里 兰州 的 巴尔 的 摩 市 (约翰 ， 霍 普 金 斯 
大 学 所 在 地 ) 东 部 ,有 一 些 废弃 的 房屋 ,人 们 竟然 在 里 面 用 LED 灯 偷 偷 地 种 植 大 麻 。 由 于 周 
围 社区 比较 混乱 ,很 少 有 外 人 去 ,因此 那里 就 成 了 大 麻 种 植 者 的 天 堂 。 更 有 甚 者 ,在 环境 优 
美的 西雅图 地 区 ,有 一 家 人 花 50 万 美元 买 下 一 栋 豪 宅 , 周 围 种 满 玫瑰 ,而 在 豪宅 内 部 却 摆 满 
了 盆栽 的 大 麻 。 房 主 每 年 卖 大 麻 的 收入 不 仅 足 够 支付 房子 的 分 期 付款 和 电费 ,而 且 还 让 他 
攒 够 了 首付 又 买 了 一 栋 房 子 。 类 似 情 况 在 美国 各 州 和 加 拿 大 不 少 地 区 都 有 发 生 , 由 于 种 植 
毒品 的 人 分 布地 域 广 泛 而 且 隐 秘 , 定 位 种 植 毒品 的 房屋 很 困难 。 而 且 美 国 宪法 的 第 四 修正 
案 规 定 :“ 人 人 具有 保障 人 身 、 住 所 、 文 件 及 财物 的 安全 ,不 受 无 理 之 搜查 和 扣押 的 权利 ”, 因 
此 警察 在 没有 证 据 时 不 得 随便 进入 这 些 房屋 搜查 。 在 2010 年 ,美国 各 大 媒体 报道 了 一 
则 新 闻 :“ 在 南 卡罗来纳 州 的 多 切 斯 特 , 警 察 通过 智能 电表 收集 上 来 的 各 户 用 电 情 况 分 
析 , 抓 住 了 一 个 在 家 里 种 大 麻 的 人 。”" 至 此 ,大 数据 的 分 析 让 在 室内 种 植 毒品 的 犯罪 行为 
得 到 禁止 。 

案例 4: 商业 服务 

奥 伦 ， 埃 齐 奥 尼 (Oren Etzioni) 因为 买 到 高 价 机 票 ,萌生 了 对 机 票 价 格 进行 预测 的 想 
法 ,试图 帮助 用 户 买 到 实惠 的 机 票 。 于 是 ,他 创办 了 科技 公司 Farecast, 利 用 从 旅游 网 站 扑 
取 的 机 票 价格 样本 ,对 其 未 来 走势 进行 研究 分 析 , 并 将 预测 的 可 信 度 标示 出 来 , 供 消 费 者 参 
考 。 到 2012 年 为 止 ,Farecast 系统 用 了 将 近 十 万 亿 条 价格 记录 来 帮助 预测 美国 国内 航班 的 
票 价 。Farecast 票 价 预测 的 准确 度 已 经 高 达 75% ,使 用 Farecast 票 价 预测 工具 购买 机 票 的 
旅客 ,平均 每 张 机 票 可 节省 50 美元 。 

其 他 案例 ,如 统计 学 家 内 特 。 西 尔 弗 (Nate Silver) 利 用 大 数据 预测 2012 年 美国 总 统 选 
举 结果 , 麻 省 理工 学 院 利 用 手机 定位 数据 和 交通 数据 建立 城市 规划 , 梅 西 百货 根据 需求 和 库 
存 的 情况 对 多 达 7300 万 种 货品 进行 实时 调价 ,收集 和 分 析 基 因 序 列 数据 能 够 为 包括 个 性 化 
医疗 服务 在 内 的 各 种 应 用 带 来 帮助 。 

总 结 起 来 ,大 数据 的 应 用 价值 包括 (但 不 限于 ) 如 下 几 个 方面 。 

CD 应 用 在 公共 了 卫生、 公共 交通 、 公 共 安 全 等 领域 ,可 以 为 政府 节省 大 量 人 力 、 物 力 成 
本 , 极 大 地 提高 工作 效率 。 

(2) 对 大 量 消费 者 提供 产品 或 服务 的 企业 来 说 ,可 以 利用 大 数据 分 析 与 挖掘 进行 精准 
营销 ,帮助 企业 降低 成 本 、 提 高 效率 、 开 发 新 产品 、 做 出 更 明智 的 业务 决策 ,消费 者 也 因此 而 
受益 。 

(3) 对 面临 互联 网 压力 的 传统 企业 来 说 ,可 以 利用 大 数据 做 服务 转型 ,根据 实际 需求 调 
整 产 品 策略 。 

(4) 健康 医疗 大 数据 对 于 优化 健康 医疗 资源 配置 .节约 信息 共享 成 本 、 创 新 健康 医疗 服 
务 的 内 容 与 形式 、 提 供 临 床 决策 与 精准 医学 研究 等 具有 重要 的 价值 。 
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要 充分 发 掘 大 数据 的 应 用 价值 ,需要 数据 的 共享 , 即 实现 数据 的 “流动 性 ”和 “可 获取 
性 ”。 美 国政 府 创建 了 “一 站 式 数据 下 载 网 站 ”Data. gov, 只 要 不 涉及 隐私 和 国家 安全 的 数 
dà , 均 需 在 该 网 站 公开 发 布 。Data. gov 的 创建 标志 着 美国 政府 数据 仓库 的 建立 。Data. gov 
网 站 创建 的 首要 目标 是 提供 易于 发 现 . 访 问 和 理解 的 数据 ,提供 各 种 标准 接口 ,方便 用 户 下 
载 数 据 , 并 且 鼓 励 企 业 利 用 Data. gov 数据 开发 特色 应 用 。 福 布 斯 杂志 网 站 利用 Data. gov 
中 的 人 口 流动 数据 (主要 是 指 纳税 信息 ) ,开发 了 美国 人 口 迁 移 的 可 视 化 工具 ,企业 用 户 点 击 
任意 两 个 地 点 就 可 以 查看 人 口 迁 入 和 迁 出 情况 ,可 以 帮助 企业 实现 精准 营销 以 及 提供 决策 
参考 。 

WA 2016 年 4 月 ,Data. gov 的 “数据 (DATA)” 栏 目 中 提供 了 来 自 50 个 组 织 的 194 738 
个 数据 集 ,48 种 数据 格式 以 及 83 个 应 用 (APPs) ,并 在 网 站 主页 中 把 数据 集 分 为 了 农业 、 商 
业 \ 气 候 、 消 费 者 \ 生 态 系 统 、 教 育 、 能 源 、 金 融 \ 健 康 、 当 地 政府 海洋、 制造 业 、 公 众 安全 、 科 研 
14 个 主题 。 

Data. gov 网 站 为 大 数据 敞开 了 大 门 , 越 来 越 多 的 国家 由 此 认识 到 开放 政府 数据 的 价值 
和 意义 。 各 国政 府 希望 通过 合理 开放 政府 数据 ,一 方面 实现 政务 公开 透明 , 另 一 方面 促进 个 
人 ,企业 和 其 他 社会 组 织 利 用 开放 数据 创造 更 多 增值 创新 服务 。 

英国 .法国 加 拿 大、 澳大利亚 、 新 加 坡 、 新 西 兰 .挪威 爱尔兰. 丹麦、 秘鲁 .日 本 .韩国 ` 巴 
西 和 印度 等 40 多 个 国家 和 地 区 建立 了 政府 开放 数据 平台 。 各 国 除了 利用 本 国 数据 建立 开 
放 数 据 平台 之 外 ,还 合作 成 立 了 一 些 开放 数据 组 织 , 其 中 比较 有 代表 性 的 是 开放 政府 合作 联 
盟 (Open Government Partnership, OGP), 


9.2 大 数据 环境 下 的 云 存 储 安全 


因为 云 计算 和 云 存储 技术 的 发 展 , 才 让 大 数据 的 应 用 成 为 可 能 , 云 计 算 和 云 存储 技术 是 
解决 大 数据 分 析 、 预 测 的 基本 方法 。 

以 云 计算 和 云 存储 为 基础 的 数据 存储 、 信 息 分 享 和 数据 挖掘 ,可 以 高 效 地 将 大 量 、 高 速 、 
多 变 的 数据 存储 起 来 ,并 随时 进行 分 析 与 计算 ,使 得 从 数据 中 提取 隐 含 的 .未 知 的 .具有 潜在 
价值 的 信息 越 来 越 容 易 ,但 却 给 个 人 隐私 和 数据 安全 保护 带 来 极 大 的 挑战 。 

要 充分 利用 大 数据 ,前提 是 数据 开放 共享 。 如 何在 实现 数据 开放 共享 的 同时 ,保护 个 人 
隐私 和 数据 安全 是 研究 者 们 面临 的 一 个 重要 课题 。 


9.2.1 安全 挑战 


大 数据 的 共享 必然 带 来 数据 隐私 等 安全 性 方面 的 挑战 ,总结 起 来 包括 以 下 几 个 方面 。 

CD 因为 云 计 算 与 云 存储 环境 下 ,服务 器 并 不 完全 可 信 , 所 以 用 户 数据 通常 以 加 密 方式 
存储 ,而 密 文 数据 又 给 大 数据 的 共享 与 利用 带 来 困难 。 如 何 对 密 文 数据 进行 处 理 分 析 , 即 密 
态 数据 计算 是 一 大 挑战 。 

(2) 数据 隐私 保护 问题 。 虽 然 数据 公开 前 ,可 以 进行 脱 敏 、 匿 名 化 处 理 等 以 保护 数据 隐 
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私 , 但 是 不 同 的 公开 数据 整合 后 可 能 会 出 现 *1 十 1 之 2 的 后 果 。 比 如 在 美国 政府 的 公开 数据 
网 站 Data. gov 中 ,结合 两 组 貌似 不 存在 隐私 问题 的 数据 ,在 数据 之 间 建立 关联 ,可 能 会 提取 
一 些 存在 隐私 性 问题 的 信息 。 

(3) 数据 来 源 可 靠 性 问题 。 虽 然 获 取 了 共享 数据 ,但 数据 来 源 却 存在 不 可 靠 的 问题 ,是 
否 需 要 对 数据 的 可 靠 性 进行 认证 或 检测 ?怎样 实现 可 靠 性 验证 ?比如 在 Data. gov 中 ,各 个 
政府 部 门 之 间 存 在 职能 交叉 ,采集 的 数据 也 难免 存在 一 些 交 叉 , 当 两 个 部 门 采集 的 数据 不 一 
致 ,应 该 认为 谁 的 数据 更 可 靠 呢 ? 

(4) 数据 “被 遗忘 权 ”(Right to Be Forgotten) 问 题 。 在 存储 外 包 的 大 数据 时 代 , 会 产生 
诸如 “被 遗忘 权 ” 之 类 的 特殊 问题 。“ 被 遗忘 权 ” 是 指 用 户 是 否 有 权利 要 求 数据 服务 商 不 保留 
自己 的 某 些 信息 。 数 据 一 旦 共享 ,如 何 保障 共享 结束 后 的 数据 能 够 被 “遗忘 "? 

(5) 数据 所 有 权 问 题 。 数 据 共享 后 ,数据 到 底 归 属 谁 ,数据 拥有 者 是 否 从 数据 共享 中 获 
益 , 也 是 大 数据 共享 时 要 考虑 的 问题 。 

2014 年 5 月 13 日 欧盟 法 院 就 “被 遗忘 权 ” 一 案 做 出 裁定 ,判决 谷歌 应 根据 用 户 请 求 删 
除 不 完整 的 无 关 紧 要 的 、 不 相关 的 数据 以 保证 数据 不 出 现在 搜索 结果 中 。 

2016 年 4 月 ,欧洲 议会 投票 通过 了 商讨 4 年 之 久 的 (一 般 数 据 保护 条 例 》(General Data 
Protection Regulation,GDPR)。 该 法 规 包括 91 个 条 文 , 共 计 204 页 。 该 条 例 于 2 年 后 ,也 
就 是 在 2018 年 5 月 25 日 正式 生效 。 

新 条 例 的 通过 意味 着 欧盟 对 个 人 信息 保护 及 其 监管 达到 了 前 所 未 有 的 高 度 ,可 称 为 史 
上 最 严格 的 数据 保护 条 例 。 非 欧盟 成 员 国 的 公司 (包括 免费 服务 ) 只 要 满足 下 列 两 个 条 件 之 
一 ,该 公司 就 受到 GDPR 的 管辖 。 

CD 为 了 向 欧盟 境内 可 识别 的 自然 人 提供 商品 和 服务 而 收集 、 处 理 他 们 的 信息 。 

(2) 为 了 监控 欧盟 境内 可 识别 的 自然 人 的 活动 而 收集 、 处 理 他 们 的 信息 。 

2018 年 6 月 28 日 ,在 加 州 议会 大 厦 ,在 没有 反对 票 的 情况 下 ,加 州 参议 院 和 众议院 合 
作 通 过 了 最 严厉 的 个 人 隐私 保护 法 案 AB375。 该 法 案 堪 比 欧盟 GDPR ,目的 是 让 用 户 对 公 
司 收集 和 管理 个 人 信息 的 方式 有 更 多 控制 权 。 根 据 该 法 案 , 从 2020 年 开始 ,掌握 超过 5 万 
个 人 信息 的 公司 必须 允许 用 户 查 阅 自己 被 收集 的 数据 、 要 求 删 除数 据 ,以 及 选择 不 将 数据 出 
售 给 第 三 方 。 公 司 必须 依法 为 行使 这 种 权利 的 用 户 提供 平等 的 服务 ,一旦 有 违法 行为 ,将 被 
处 以 7500 美元 的 罚款 。 该 法 案 将 适用 于 加 州 用 户 。 

在 以 上 安全 问题 中 ,数据 所 有 权 问 题 ,数据 来 源 可 靠 性 问题 以 及 数据 “被 遗忘 权 ” 问 题 可 
以 通过 有 效 的 立法 得 到 解决 。 

信息 安全 的 法 律 法 规 无 疑 是 保护 个 人 隐私 和 数据 安全 的 最 有 效 办 法 ,但 是 严厉 的 法 规 
也 会 阻碍 大 数据 的 共享 与 利用 。 因 此 ,为 了 充分 利用 大 数据 ,需要 从 技术 角度 上 提高 个 人 隐 
私 和 数据 安全 保护 水 平 。 

从 信息 安全 的 角度 来 看 ,保障 大 数据 安全 仍然 包括 CIAA 四 元 组 : 机 密 性 (Confidentiality)、 
完整 性 (Integrality)、 可 用 性 (Availability) 以 及 访问 控制 (Access Control) 。 在 以 上 安全 需 
求 中 ,身份 认证 与 访问 控制 技术 在 第 4 章 有 详细 论述 ,而 机 密 性 保护 中 的 数据 加 密 在 第 5 章 
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有 专门 介绍 ,数据 完整 性 保护 在 第 7 SCR TEA PG S 

大 数据 只 有 通过 开放 共享 ,并 对 其 进行 分 析 处 理 及 挖掘 ,才能 得 到 有 价值 的 信息 ,而 数 
据 通常 存放 在 不 可 信 的 云 存储 服务 器 上 ,为 了 保障 机 密 性 ,数据 是 以 密 文 形式 存放 的 。 因 
此 ,如 何 对 密 文 数据 进行 处 理 分 析 , 是 大 数据 的 特殊 需求 , 即 密 态 计算 以 及 安全 多 方 计算 是 
本 章 的 要 点 。 另 外 ,将 数据 进行 开放 共享 时 ,存在 个 人 隐私 泄露 的 问题 ,从 而 有 隐私 保护 需 
求 。 下 面 将 对 这 几 个 方面 进行 详细 介绍 。 


9.2.2 密 态 计算 


Google 的 G-mail 邮箱 与 腾讯 的 QQ 邮箱 这 类 为 用 户 提 供 免 费 E-mail 服务 的 提供 商 ， 
怎样 在 不 获取 用 户 邮 件 信息 的 情况 下 ,为 用 户 提供 邮件 发 送 与 接收 检索 、 删 除 .主题 分 类 以 
及 垃圾 邮件 过 滤 等 功能 ? 
此 外 ,由 于 云 服务 器 不 可 信 , 所 以 用 户 数据 需要 加 密 存 储 在 云 上 ,而 云 上 的 大 数据 具有 
巨大 的 潜在 价值 ,但 需要 对 其 进行 分 析 处 理 并 深度 挖掘 才能 取得 这 些 有 价值 的 信息 。 怎 样 
在 密 文 域 上 对 数据 进行 分 析 统计 ,实现 * 单 个 数据 .部 分 数据 均 不 可 知 , 但 整体 统计 数据 可 
知 ” 的 功能 ? 怎样 利用 成 千 上 万 的 患者 病历 数据 进行 药物 疗效 分 析 ? 怎样 统计 并 利用 搜索 
引擎 的 用 户 高 频 搜 索 词 实现 个 性 化 推荐 ? 其 他 应 用 ,如 加 密 网 络 流量 建 模 、 密 文 薪资 数据 、 
财务 数据 人 力 资源 数据 ,业务 数据 等 的 统计 分 析 怎 样 实现 ? 
这 些 功 能 的 实现 都 有 赖 于 密 态 计算 ,而 目前 密 态 计算 通常 利用 全 (部 分 ) 同 态 加 密 算法 
实现 。 
1978 年 ,R. Rivest, L. Adleman 和 M. Dertouzos 提出 了 “全 同 态 加 密 ”(Fully Homomorphic 
Encryption. FHE)U? fif E 4t , 
设 加 密 操 作为 巨 , 明 文 为 m ,相应 密 文 为 e. 即 e 二 EE(m)。 若 对 明文 操作 f ,可 构造 操作 
F, WE FC) —ECF GO B FCE(Gm)) — ECf (m)) WEK E 为 一 个 针对 了 的 同 态 加 密 算 
法 。 若 对 任意 复杂 的 明文 操作 f ,都 能 构造 出 相应 的 下 , 则 称 E 为 全 同 态 加 密 算法 。 
自从 提出 同 态 加 密 以 来 ,研究 者 们 提出 了 不 少 半 同 态 加 密 算法 ,但 始终 没有 找到 一 种 实 
用 的 全 同 态 加 密 方案 。 比 如 ,RSA 算法 对 乘法 运算 是 同 态 的 ,但 它 对 加 法 运算 就 无 法 构造 
出 对 应 的 下 ; 而 Paillier 算法 则 对 加 法 运算 是 同 态 的 。 其 他 如 unpadded_RSA、ElGamal、 
Goldwasser-Micali、Benaloh 等 ,都 只 支持 加 法 同 态 和 乘法 同 态 运算 中 的 一 种 。 
直至 2009 年 ,全 同 态 加 密 才 取 得 突破 性 进展 。IBM 公司 的 Gentry) 基于 “理想 格 ” 
(Ideal Lattice) 代 数 结构 ,提出 第 一 种 真正 意义 上 的 全 同 态 加 密 体制 。 
根据 同 态 加 密 算 法 发 展 阶段 ,支持 密 文 运算 的 种 类 和 次 数 ,可 以 分 为 3 类 。 
* 部 分 同 态 加 密 (Partial Homomorphic Encryption, PHE) ; 仅 支 持 单一 类 型 的 密 文 域 
同 态 运算 (加 或 乘 同 态 ) 。 

* 类 同 态 加 密 (Somewhat Homomorphic Encryption, SHE): 能 够 支持 密 文 域 有 限 次 
数 的 加 法 和 乘法 同 态 运算 。 

* 全 同 态 加 密 (Fully Homomorphic Encryption. FHE): 能 够 实现 任意 次 密 文 的 加 、 乘 
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同 态 加密 的 发 展 大 致 可 分 为 两 个 阶段 。 

1. 半 同 态 加 密 时 代 (1978 一 2009 年 ) 

1978 年 ,Rivest、Shamir 和 Adleman 提出 的 基于 大 整数 分 解困 难 性 问题 的 RSA 密码 
体制 是 乘法 同 态 ,支持 任意 次 数 乘法 同 态 操作 。 

1984 年 ,ElGamal 提出 的 基于 离散 对 数 困 难 问 题 的 EIGamal 公 钥 加 密 体制 是 乘法 同 
态 , 支 持 任意 次 数 乘法 同 态 操作 ; Goldwasser 和 Micali 提出 的 GM 概率 公 钥 密码 体制 是 加 
法 (mod 2) 同 态 , 支 持 任意 次 加 法 (mod 2) 同 态 操作 ,也 是 第 一 种 具有 语义 安全 性 的 同 态 公 
钥 加 密 体制 。 

1994 年 ,Benaloh 提出 的 Benaloh 加 法 同 态 密码 体制 是 加 法 同 态 , 支 持 有 限 次 加 法 同 态 
操作 。 

1998 年 ,Okamoto 和 Uchiyama 提出 的 OU 体制 以 及 Naccache 和 Stern 提出 的 NS 体 
制 都 是 加 法 同 态 ,支持 任意 多 次 加 法 同 态 操作 。 

1999 年 ,Paillier 提出 Paillier 体制 ,这 是 第 一 种 基于 判定 合 数 剩 余 类 问题 的 加 法 同 态 
密码 体制 ,支持 任意 多 次 加 法 同 态 操作 。 

2001 年 ,Damgard 和 Jurik 提出 的 DJ 体制 是 加 法 同 态 ,支持 任意 多 次 加 法 同 态 操作 。 

2005 年 ,Boneh Goh 和 Nissim 提出 的 BGN 同 态 加 密 体 制 支持 任意 多 次 加 法 同 态 和 一 
次 乘法 同 态 。 

2. 全 同 态 加 密 时 代 (2009 一 至 今 ) 

2009 年 ,IBM 公司 研究 人 员 Craig Gentry 提出 基于 理想 格 的 全 同 态 加 密 体制 一 
Gentry 体制 ,其 本 质 是 一 种 基于 理想 格 陪 集 问题 构造 的 层次 型 FHE 方案 。 该 方案 首先 构 
造 一 个 对 称 型 SHE 算法 ,该 算法 支持 密 文 的 低 阶 多 项 式 运算 ,然后 将 解密 操作 分 解 为 更 
小 的 子 操作 ,可 以 表示 为 低 阶 多 项 式 运 算 , 通 过 自 举 技术 (Bootstrapping) 将 受 限 同 态 加 密 
算法 转变 成 全 同 态 加 密 算法 。Gentry 体制 的 密 文 处 理 效 率 很 低 ,还 不 能 达到 实际 应 用 的 
要 求 。 

随 着 量子 计算 机 的 发 展 , 基 于 整数 分 解 .离散 对 数 等 困难 问题 的 密码 算法 都 将 变 得 不 安 
全 ,而 格 密码 能 够 很 好 地 抵御 量子 计算 攻击 。 自 从 Gentry 体制 提出 以 来 ,理想 格 上 的 全 同 
态 加 密 体制 设计 成 为 密码 学 领域 的 一 个 新 的 研究 热点 。 

2010 年 ,Dijk 等 人 中 提出 利用 整数 集 代替 理想 格 来 设计 全 同 态 加密 算 法 。 他 们 把 此 算 
法 的 安全 性 问题 归结 到 找 一 个 近似 的 最 大 公约 数 , 即 给 出 一 系列 是 某 个 隐 整 数 的 近似 倍数 
的 整数 , 找 出 此 隐 整 数 。 与 Gentry 体制 相 比 ,该 方案 更 加 简洁 ,但 处 理 效率 仍然 很 低 。 同 
年 ,Smart 和 Vercauteren[] 借鉴 Gentry 体制 构造 全 同 态 加 密 方 案 的 思想 , 选 定 两 个 大 整数 
组 成 公 钥 和 私 钥 ,一 个 大 整数 组 成 密 文 ,给 出 了 基于 相对 小 的 密 钥 和 密 文 规模 的 全 同 态 加 密 
方案 ,适用 于 任意 特征 为 2 的 域 上 的 全 同 态 加 密 快速 计算 。 对 Gentry 体制 的 实现 及 其 快速 
计算 的 方案 有 [8,9], 通 过 提升 自 举 技术 和 减 小 公 钥 的 大 小 来 提升 其 执行 效率 的 方案 有 
[10-12], 但 是 这 些 方案 并 没有 完全 解决 FHE 方案 的 噪声 问题 。 
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另 一 类 同 态 加 密 算 法 的 研究 是 基于 错误 学 习 (Learning With Errors. LWE) 和 环 上 错 
误 学 习 (Ring-LWE,RLWE) ,它们 的 安全 性 假设 可 以 归 约 到 一 般 格 上 的 标准 困难 问题 。 与 
Gentry 体制 不 同 , 它 首先 构建 一 个 SHE 方案 ,在 密 文 计算 后 ,通过 密 钥 交换 技术 来 控制 密 
文 向 量 的 维 数 膨胀 问题 sr Switching) 降 低 密 文 运算 过 程 中 的 
噪声 ,不 需要 使 用 同 态 解密 技术 就 能 构造 一 次 型 FHE 方案 来 执行 多 项 式 级 深度 的 
电路 。 

2005 4E, Regev? sg 3t T LWE 问题 是 “ 带 噪声 的 奇偶 校 验 学 习 ” 问 题 的 一 般 化 ,并 证 明 
了 该 问题 在 量子 规约 下 具有 类 似 的 最 坏 情况 特性 。2011 年 ,Brakerski 和 Vaikuntanathan09 基 
于 LWE 问题 构造 出 第 一 种 不 依赖 理想 格 的 全 同 态 加 密 体制 一 一 BV 体制 。 由 于 LWE 问 
题 的 难 解 性 归 约 到 一 般 格 上 的 困难 问题 ,因此 这 一 体制 具备 比 Gentry 体制 更 可 靠 的 安全 性 
保障 。BV 体制 的 缺陷 在 于 其 公 钥 尺寸 与 所 能 执行 的 密 文 乘法 次 数 成 正比 ,因而 难以 处 理 
较 复杂 的 密 文 运算 。 

由 于 此 类 方案 具有 可 抵抗 量子 攻击 和 可 简单 快速 实现 的 特点 ,成 为 当前 密码 学 领域 一 
个 重要 的 计算 困难 问题 。 

针对 基于 LWE 和 RLWE 问题 的 同 态 加 密 技 术 的 研究 2529 主要 为 了 进一步 提高 计算 
效率 ,而 对 于 如 何 控制 公 钥 尺寸 并 没有 有 效 的 解决 方案 。 

目前 大 数据 环境 下 ,为 了 实现 密 态 数据 计算 ,主要 是 采用 同 态 加 密 技术 。 总 结 以 上 研究 
工作 ,存在 以 下 一 些 问题 。 

。 通 常 PHE 方案 在 应 用 中 执行 效率 更 高 ,但 是 仅 能 支持 加 法 或 乘法 的 同 态 运 算 。 
FHE 方案 在 功能 性 上 要 优 于 SHE 和 PHE 方案 ,但 是 由 于 FHE 方案 使 用 自 举 电 
路 、 维 数 归 约 技术 即 重 线性 化 (Dimension Modulus Reduction) 等 技术 来 降低 噪声 ， 
从 而 达到 突破 限制 进行 密 文 同 态 运 算 的 目的 ,复杂 的 计算 过 程 成 为 其 实际 应 用 的 
瓶颈 。 
目前 利用 同 态 加 密实 现 密 文 计算 的 方案 ,大 部 分 要 求 数 据 拥 有 者 在 数据 外 包 的 过 程 
中 做 大 量 的 协助 工作 ,例如 建立 并 维护 目录 ,或 者 要 求 通过 可 信 第 三 方 实现 对 密 文 
的 运算 ,前 者 给 用 户 带 来 不 便 ,后 者 增加 了 数据 泄露 的 风险 。 

。 大 部 分 建立 在 公 钥 体制 上 语义 安全 的 同 态 加 密 算 法 都 存在 密 文 空间 膨胀 问题 ,这 是 

概率 加 密 算 法 固有 的 问题 。 

。 其 他 问题 ,如 安全 性 、 计 算 效 率 也 是 有 待 改 善 的 问题 。 

文献 [20] 分 析 了 云 平台 中 存储 数据 安全 性 用户 隐私 保护 和 数据 商业 利用 这 三 者 之 间 
的 关系 和 实现 这 三 者 之 间 平 衡 的 重要 性 。 他 们 给 出 了 基于 理想 格 的 Gentry 原始 方案 、 基 于 
RLWE 的 BGV 方案 和 FV 方案 的 效率 比较 和 分 析 。 他 们 发 现 ,基于 RLWE 的 SHE 方案 
为 很 多 涉及 实际 问题 的 计算 模型 和 算法 提供 了 比较 高 效 的 解决 方案 。 因 此 ,他 们 给 出 了 基 
于 BGV 方案 的 两 个 SHE 应 用 案例 ,分 析 表 明基 于 RLWE 的 SHE 方案 是 解决 数据 保密 
性 、 用 户 隐私 保护 和 数据 商业 利用 的 最 有 效 方 案 。 

文献 [21] 将 全 同 态 加 密 的 发 展 划分 为 3 个 阶段 : 第 一 阶段 是 Gentry 在 2009 年 的 突破 
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性 工作 , 即 提出 Gentry 体制 ; 第 二 阶段 是 Brakerski 和 Vaikuntanathan 首次 提出 基于 LWE 
的 全 同 态 加 密 方案 ; 第 三 阶段 是 Gentry 等 人 3 首次 利用 近似 特征 向 量 的 方法 实现 了 全 同 
态 加 密 , 即 Gentry-Sahai-Waters(GSW) 方 案 , 在 同 态 运算 时 不 再 依赖 于 计算 公 钥 。 他 们 从 
全 同 态 加 密 所 经 历 的 3 个 阶段 .基于 格 的 全 同 态 加 密 体制 设计 和 全 同 态 加 密 面临 的 问题 及 
发 展 趋势 等 方面 介绍 了 自 Gentry 体制 后 的 重要 研究 成 果 。 

文献 [23] 对 同 态 加 密 技 术 在 云 计 算 隐 私 保 护 中 的 应 用 做 了 综述 ,包括 云 计 算 隐 私 安全 
和 同 态 加 密 研 究 进展 、 同 态 加 密 算 法 的 分 类 安全 理论 基础 全 同 态 加 密 方 案 的 实现 技术 , 重 
点 对 各 类 同 态 加 密 方案 的 优 缺 点 进行 了 介绍 和 分 析 , 并 指出 未 来 的 研究 方向 。 

由 于 量子 计算 机 的 发 展 ,可 抵抗 量子 攻击 的 格 密码 体制 成 为 后 量子 密码 研究 中 最 为 核 
心 的 研究 领域 。 中 国 科学 院 院 士 \ 中 国 密码 学 家 王小云 教授 中 从 全 同 态 加 密 所 经 历 的 3 个 
阶段 ,基于 格 的 第 三 代 全 同 态 加 密 体制 (GSW 方案 ) 的 设计 和 全 同 态 加 密 面临 的 问题 及 发 展 
趋势 等 方面 ,对 基于 格 的 全 同 态 加 密 技术 进行 了 较为 详细 的 总 结 。 她 从 格 困 难 问题 的 计算 
复杂 性 研究 、 格 困难 问题 的 求解 算法 、 格 密码 体制 的 设计 以 及 格 密码 分 析 4 个 方面 较为 全 面 
地 回顾 了 格 密码 领域 三 十 多 年 来 的 主要 研究 成 果 , 展 现 了 4 个 研究 领域 方法 的 渗透 与 融合 。 

随 着 同 态 加 密 技术 的 发 展 ,结合 全 同 态 加 密 技术 来 设计 其 他 的 密码 学 原 语 也 取得 了 显 
著 的 成 果 , 如 不 经 意 随机 存 取 (Oblivious Random Access Memory, ORAM) HERE AFE 
计算 (Delegate Computation)" | IE (Obfuscation) 9? 4 , 

2018 4E. IBM 密码 研究 团队 的 Shai Halevi 和 Victor Shoup55 改 进 了 当前 的 HElib( 实 
现 同 态 加 密 的 一 个 软件 库 ) ,使 得 新 的 算法 可 以 提速 30 一 75 倍 。 同 时 ,因为 密 钥 交换 矩阵 的 
存在 , 同 态 加 密 的 公 钥 构造 开销 很 大 ,他 们 提出 的 方案 可 以 将 矩阵 体积 减 小 33% 一 50%。 

因为 目前 的 HElib 线性 变换 算法 通过 “特殊 自 同 构 ” 实 现 ( 自 同 构 是 指 将 对 象 映 射 到 自 
身 的 同时 保持 其 全 部 结构 的 一 种 数学 操作 ) ,这 种 自 同 构 应 用 到 密 文 上 的 主要 开销 就 是 “ 密 
钥 交换 ?开销 。 密 文中 每 个 环 元 素 都 应 用 了 自 同 构 后 ,就 得 到 了 与 “错误 ” 密 钥 对 应 的 加 密 密 
文 。 使 用 该 自 同 构 特 定 公 钥 中 的 数据 ,也 就 是 “ 密 钥 交换 矩阵 ”, 可 以 将 密 文 转换 成 对 应 “ 正 
确 ” 密 钥 的 加 密 密 文 。 因 此 ,线性 变换 的 计算 开销 由 自 同 构 的 循环 次 数 决 定 。 为 了 提高 计算 
效率 ,要 减少 自 同 构 数 量 , 并 降低 每 个 自 同 构 的 开销 。Shai Halevi 和 Victor Shoup 提出 的 
算法 利用 新 的 自 同 构 计算 策 略 ,提速 了 30 一 75 fit. 

目前 ,HElib 项 目 还 处 于 研究 阶段 。 在 GitHub 页 面 上 ,他 们 声明 :“ 现 阶段 ,本 库 主要 
面向 研究 同 态 加 密 及 其 使 用 的 研究 人 员 。 目 前 HElib 还 相当 低级 ,最 好 把 它 看 作 “ 面 向 HE 
的 汇编 语言 。 换 名 话说 ,HElib 提供 了 低级 例 程 ( 置 位 操作 、 加 法 乘法 操作 、 移 位 操作 等 )， 
为 优化 提供 了 尽 可 能 多 的 途径 。 和 希望 我 们 终 能 提供 更 高 级 的 例 程 。” 

伴随 着 量子 计算 机 的 发 展 ,可 以 抵抗 量子 计算 攻击 的 同 态 加 密 技术 ,其 发 展 必然 同步 加 
速 。 此 次 改进 使 得 同 态 加 密 性 能 最 高 提升 75 倍 , 是 同 态 加 密 技 术 发 展 给 大 数据 安全 计算 带 
来 的 最 大 福音 。 


9.2.3 安全 多 方 计算 
1982 年 ,图 灵 奖 获得 者 、 中 国 科学 院 院 士 姚 期 智 9 在 顶级 会 议 FOCS(IEEE Symposium 
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on Foundations of Computer Science) 上 提出 并 提供 原始 示范 解答 了 * 百 万 富翁 ”问题 (Yao's 
Millionaires’ Problem) 。 该 问题 是 : 在 没有 可 信 第 三 方 的 前 提 下 ,两 个 百 万 富翁 想 比较 谁 
更 加 富有 ,但 他 们 都 不 想 让 对 方 知道 自己 具体 的 财富 数目 。 这 个 问题 就 是 两 方 计算 问题 ,两 
个 参与 方 持 有 各 自 的 秘密 数据 ,共同 执行 一 个 计算 逻辑 ,比如 比较 两 个 数 的 大 小 ,最 后 获得 
计算 结果 。 当 * 百 万 富翁 ?问题 中 的 两 方 变 成 三 方 及 以 上 时 ,我 们 就 称 之 为 多 方 计算 
(Multiparty Computation, MPC). 

安全 多 方 计 算 可 以 在 保证 多 个 参与 者 数据 隐私 安全 的 同时 ,使 用 参与 者 提供 的 隐私 数 
据 进行 既定 逻辑 的 运算 ,最 后 让 各 参与 者 获得 想 要 的 计算 结果 ,而 不 泄露 各 参与 者 的 数据 ， 
同时 实现 隐私 性 、 正 确 性 、 输 入 独立 性 以 及 公平 性 等 安全 目标 。 安 全 多 方 计算 可 以 进行 隐私 
计算 ,实现 数据 的 隐私 保护 和 共享 利用 ,现在 已 经 广泛 应 用 于 电子 投票 高 维 数据 分 类 、 电 子 
合同 签署 安全 秘密 共享 联合 基因 数据 分 析 、 匿 名 认证 以 及 隐私 信息 检索 等 方面 。 

因为 任意 可 计算 函数 都 存在 一 个 与 之 等 价 的 电路 ,所 以 可 以 通过 门 电路 实现 任意 可 计 
算 函 数 的 安全 计算 。 假 设 Alice 和 Bob 之 间 要 计算 一 个 任务 f ,他 们 的 输入 为 x 和 y, 要 完 
成 计算 ,可 以 构造 一 个 电路 C 执行 安全 计算 协议 并 计算 fay), WR n 个 参与 者 希望 
利用 各 自 的 秘密 输入 zk,z*,…,z 共同 完成 计算 任务 FCzi ,zs,…,zw), 也 可 以 通过 构造 
电路 来 实现 。 以 此 为 基础 的 安全 计算 协议 一 般 称 为 通用 的 安全 多 方 计 算 协议 。 通 用 的 安全 
多 方 计算 协议 通常 包括 基于 混淆 电路 的 构造 方法 、 基 于 秘密 分 享 的 构造 方法 和 基于 同 态 密 
码 的 构造 方法 。 

早期 安全 多 方 计算 协议 通常 首先 构造 一 个 需要 计算 的 函数 的 电路 ,然后 采用 不 同 的 技 
术 手 段 来 设计 该 电路 ,从 而 实现 函数 的 计算 。 计 算 函 数 越 复 杂 , 参 与 者 之 间 需 要 交互 的 次 数 
与 数据 越 多 ,计算 开销 越 大 ,电路 规模 也 越 大 ,因此 电路 的 规模 可 以 反映 函数 的 计算 复杂 度 。 

最 早 的 Yao 协议 就 是 将 功能 函数 转换 为 一 个 电路 ,然后 针对 电路 的 每 个 门 电路 进行 
混淆 ,逐次 计算 每 个 混淆 门 电路 来 实现 任意 功能 函数 的 安全 多 方 计算 。 

将 任意 一 个 功能 函数 转换 成 电路 ,通常 其 门 电路 的 数量 非常 大 ,而 其 混淆 电路 的 计算 开 
销 也 非常 大 ,因此 通过 简化 混淆 电路 的 规模 可 以 提高 安全 多 方 计算 协议 的 效率 。 文 献 [37] 
提出 Free-XOR 技术 对 混淆 XOR 门 进行 优化 ; 文献 L38] 将 Free-XOR 技术 一 般 化 为 
FleXOR 技术 ; 文献 [39,40] 提 出 对 混淆 电路 的 值 表 进行 优化 的 方法 ; 文献 [41] 提 出 “ 半 门 ” 
(Half Gate) 技 术 , 用 于 优化 混淆 电路 (基于 半 门 技术 ,理论 上 可 以 使 电路 规模 减少 33%)。 

基于 混淆 电路 的 安全 多 方 计算 的 电路 规模 通常 比较 大 ,通信 复杂 度 较 高 ,作为 安全 多 方 
计算 核心 技术 之 一 的 同 态 加 密 技 术 可 以 克服 这 些 问 题 。 

Asharov 等 人 中 首次 提出 基于 门限 同 态 加 密 (Threshold-FHE)' 久 方案 设计 MPC 协议 
的 概念 ,他 们 利用 Threshold-FHE 方案 ,在 CRS(Common Reference String) 模 型 下 ,基于 
LWE 假设 构造 了 一 个 抵抗 半 恶 意 敌 手 的 3- 轮 MPC 协议 ,并 利用 非 交 互 零 知识 (Non- 
interactive Zero-knowledge) 证 明 获 得 一 个 抵抗 恶意 敌手 的 4- 轮 MPC 协议 。 在 3- 轮 MPC 
协议 中 ,各 参与 方 协作 获得 一 个 FHE 方案 的 通用 公 钥 ,然后 各 参与 方 对 各 自 的 私 钥 进行 秘 
密 共享 ,利用 通用 公 钥 来 加 密 各 自 的 输入 并 将 密 文 广播 出 去 ; 当 各 参与 方 接收 到 各 个 密 文 
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后 ,在 本 地 执行 并 完成 同 态 运算 ,接着 利用 收 到 的 所 有 私 钥 份额 对 同 态 运 算 后 的 密 文 进行 解 
密 ; 最 后 利用 拉 格 朗 日 插值 多 项 式 恢 复出 同 态 运 算 后 的 结果 。 

Garg 等 人 [号 利 用 不 可 区 分 性 混淆 (indistinguishability Obfuscation,iO) 和 非 交 互 零 知 
识 证 明 构 造 了 一 个 在 CRS 模型 下 抵抗 静态 恶意 敌手 的 2- 轮 公平 的 MPC 协议 。Gordon 等 
人 55 指出 ,在 Standalone 模型 下 ,2- 轮 公平 的 MPC 协议 是 不 可 能 实现 的 。 因 此 ,他 们 实现 
了 在 CRS 模型 下 3- 轮 公平 的 MPC 协议 ,该 协议 无 需 增 加 通信 的 轮 次 ,最 后 他 们 利用 
Asharov 等 人 [9 的 编译 器 ,获得 一 个 在 CRS 模型 下 抵抗 恶意 敌手 的 4- 轮 公平 的 MPC 
协议 。 

Lopez-Alt 等 人 [外 首次 提出 基于 多 密 钥 同 态 加 密 (Multikey-FHE) 的 MPC 概念 。 他 们 
利用 Multikey-FHE 方案 ,在 CRS 模型 下 构造 了 一 个 抵抗 半 恶 意 敌 手 的 3- 轮 MPC 协议 。 
Mukherjee 等 人 [外 利用 文献 [48] 构 造 的 基于 GSW 的 Multikey-FHE 方案 ,构造 了 一 个 在 
CRS 模型 下 ,抵抗 半 恶 意 敌 手 的 2- 轮 MPC 协议 。 在 2- 轮 MPC 协议 中 ,各 参与 方 执行 密 钥 
生成 算法 获得 公 钥 和 私 钥 ,并 在 各 自 的 公 钥 下 加 密 各 自 的 输入 ,将 获得 的 密 文 广播 出 去 ; 各 
参与 方 接收 到 各 个 密 文 后 ,在 本 地 执行 并 完成 同 态 运 算 ,并 利用 各 自私 钥 来 获得 部 分 解密 结 
果 ; 最 后 利用 所 有 收 到 的 部 分 解密 结果 来 获得 最 终 的 同 态 运算 结果 。 

Mukherjee 4$ A" fy FHE 方案 仅 支持 单 跳 (Single-hop) 的 同 态 运算 ,在 协议 开始 之 前 
要 先 确定 各 参与 方 。Brakerski 等 人 "外 构造 了 一 种 完全 动态 的 Multikey-FHE 方案 ,允许 参 
与 方 随意 加 入 与 退出 协议 ,同时 支持 多 跳 (Multi-hop) 的 同 态 运算 。Peikert 等 人 中 也 提出 
两 种 基于 MultiKey-FHE 的 方案 。 

文献 L51] 提 出 一 种 新 的 对 保密 数据 进行 编码 的 方案 ,然后 利用 这 种 新 的 编码 方案 和 同 
态 加 密 方案 构造 了 一 个 * 百 万 富翁 ”问题 的 新 的 解决 方案 ,可 以 对 可 定义 全 序 关 系 的 任意 两 
个 对 象 进行 比较 ,解决 了 另 一 个 新 的 多 方 保密 计算 问题 , 即 两 个 整数 的 互 素 问题 。 

Dodis 4 AC? 利用 函数 秘密 共享 (Function Secret Sharing, FSS) 的 方法 构造 了 一 种 
Spooky 加 密 方案 ,并 基于 该 加 密 方案 和 概率 不 可 区 分 性 混淆 (Probabilistic indistinguishability 
Obfuscation,PiO) 设 计 了 一 个 2- 轮 的 MPC 协议 。 

此 外 ,密码 协议 的 公平 性 问题 一 直 是 研究 的 重要 方面 。 文 献 [35j 在 提出 安全 多 方 计算 
时 就 引入 了 公平 性 的 思想 ,但 是 Clever 汪 指出 只 有 存在 大 多 数 诚实 参与 者 的 情况 下 ,安全 多 
方 计 算 协 议 才 能 实现 完全 公平 性 。Asokan550 引 入 了 乐观 模型 ,在 该 模型 中 用 一 个 额外 的 可 
信 第 三 方 来 实现 和 保证 协议 的 公平 性 。Boneh 和 Naor' 汪 给 出 了 一 个 公平 签约 协议 的 类 似 
下 界 , 能 达到 宽松 定义 的 公平 性 (Relaxed Definition of Fairness) 。 文 献 L56] 研 究 了 两 方 安 
全 计算 的 部 分 公平 性 ,指出 在 Plain 模型 (如 无 条 件 安全 和 通用 可 组 合 安全 等 ) 下 其 部 分 公 
平 性 通常 是 不 可 能 达到 的 。 在 文献 [57] 中 ,他 们 给 出 了 部 分 公平 性 的 完整 定义 。2008 年 ， 
Gordon 等 人 [中 对 某 些 特殊 函数 的 安全 多 方 计算 协议 的 公平 性 进行 了 研究 ,论证 了 即使 不 
存在 大 多 数 诚实 参与 者 的 情况 下 ,安全 多 方 计算 也 可 以 实现 完全 公平 性 ,从 而 扩展 了 公平 密 
码 协 议 的 研究 领域 。 

文献 [59] 在 通用 可 组 合 (Universally Composable, UC) 框 架 下 研究 了 安全 多 方 计算 的 
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公平 性 问题 。 他 们 提出 公平 安全 多 方 计算 的 安全 模型 ,并 在 此 模型 中 形式 化 定义 了 公平 安 
全 多 方 加 法 计算 理想 函数 和 公平 安全 多 方 乘法 计算 理想 函数 ,然后 基于 双 线 性 对 技术 和 承 
诺 方案 理想 函数 ,在 混合 模型 下 分 别 设计 公平 加 法 协议 和 公平 乘法 协议 安全 实现 理想 函数 。 

早期 的 安全 多 方 计算 停 留 在 理论 研究 上 , 极 大 地 促进 了 零 知 识 证 明 、 不 经 意 传输 、 秘 密 
共享 等 密码 学 原 语 的 发 展 。 但 是 随 着 云 计算 与 大 数据 领域 对 安全 多 方 计 算 的 迫切 需求 以 及 
近 几 年 的 加 速 发 展 , 安 全 多 方 计 算 已 经 从 理论 密码 学 的 研究 领域 发 展 到 了 实用 化 的 阶段 ,出 
现 很 多 在 具体 应 用 领域 的 研究 成 果 。 

文献 [60] 研 究 了 如 何 保 密 地 将 多 个 字符 按照 字典 序 排序 ,这 个 问题 的 解决 将 可 以 提高 
数据 库 保 密 查询 的 效率 。 为 了 保密 地 判断 多 个 字符 按照 字典 序 排序 的 位 置 关系 ,他 们 首先 
设计 了 一 种 新 的 编码 方法 ,结合 Paillier 加 法 同 态 加 密 算 法 、 椭 圆 曲 线 加 法 同 态 加 密 算 法 、 秘 
密 分 割 和 门限 解密 算法 ,分 别 设计 了 3 个 能 够 抵抗 合谋 攻击 的 多 个 字符 保密 排序 的 协议 。 
他 们 利用 安全 多 方 计算 普遍 采用 的 模拟 范例 证 明了 协议 在 半 诚 实 模型 下 的 安全 性 。 

在 经 典 的 “ 百 万 富翁 "协定 中 ,参与 者 之 一 在 获取 到 财产 大 小 的 结论 后 ,有 可 能 不 告诉 另 
外 一 个 参与 者 ,而 结合 博弈 论 可 以 避免 这 个 问题 。 通 常 ,参与 者 会 选择 做 出 对 自己 有 利 的 决 
定 , 因 此 可 以 设计 一 个 协议 ,使 遵循 这 个 协议 的 参与 者 获得 的 利益 大 于 背离 这 个 协议 的 利 
益 。 针 对 当前 基于 博弈 论 的 方案 计算 效率 较 低 的 问题 ,文献 [61] 通 过 引入 多 个 参数 ,从 多 个 
角度 考虑 ,构建 了 一 个 具有 一 般 性 和 全 面 性 的 博弈 模型 ; 然后 在 此 基础 上 ,引入 一 个 二 叉 树 
来 提高 计算 效率 。 

保护 隐私 的 位 置 判 断 是 一 种 具体 的 安全 多 方 计算 几 何 问题 , 即 在 保持 各 自 输入 隐私 的 
条 件 下 ,判断 各 个 参与 者 位 于 平面 或 者 空间 的 相对 位 置 。 点 包含 问题 是 保密 判断 一 个 点 是 
和 否 落 在 一 个 凸 多 边 形 的 内 部 ,两 组 数据 对 应 成 比例 问题 可 保密 判断 空间 中 两 个 平面 或 直线 
是 否 平 行 ,这 两 个 问题 同属 于 安全 多 方 几何 计算 中 保护 隐私 的 位 置 判断 问题 。 而 当前 这 两 
个 问题 的 已 有 方案 的 效率 都 较 低 ,文献 L62] 提 出 将 点 包含 问题 转化 为 三 角形 面积 问题 ,将 两 
组 数据 对 应 成 比例 问题 转化 为 向 量 共 线 问题 ,然后 基于 内 积 协议 解决 了 这 两 个 问题 。 他 们 
利用 以 上 协议 ,分 别 给 出 了 保密 判断 凸 多 边 形 包含 . 三 角形 相似 、 空 间 几 何 对象 的 相对 位 置 
的 应 用 。 

针对 当前 安全 计算 集合 关系 的 协议 大 多 基于 公 钥 加 密 算 法 ,导致 很 难 再 嵌 人 到 带 有 属 
性 关系 的 公 钥 加 密 或 密 文 搜索 中 ,文献 [63] 给 出 了 非 加 密 方 法 安全 计算 集合 包含 关系 和 集 
合 交集 的 两 个 协议 。 他 们 利用 秘密 共享 的 思想 ,分 别 将 原来 的 两 个 问题 转化 为 集合 相等 问 
题 ,然后 结合 离散 对 数 构造 了 安全 计算 集合 包含 关系 的 协议 1 和 集合 交集 的 协议 2。 他 们 
的 方案 没有 使 用 任何 公 钥 加 密 方法 ,在 保持 了 较 优 通信 复杂 性 的 同时 ,便于 作为 一 种 子 模块 
嵌入 到 带 有 集合 操作 关系 的 公 钥 加 密 体制 或 者 密 文 搜索 体制 中 ,从 而 丰富 这 些 方案 的 功能 。 

文献 [64] 研 究 了 科学 计算 中 多 个 数据 相等 问题 的 安全 多 方 计算 。 他 们 设计 了 一 种 新 的 
编码 方法 ,使 每 个 参与 者 的 保密 数据 隐藏 在 一 个 特殊 数组 中 。 他 们 以 新 的 编码 方法 与 
ElGamal 同 态 加 密 算法 为 基础 ,分 别 利用 秘密 分 享 技 术 和 门限 密码 体制 构造 了 两 个 在 半 诚 
实 模 型 下 能 够 抵抗 合谋 攻击 的 保密 判定 协议 ,应 用 模拟 范例 证 明了 协议 的 安全 性 。 
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针对 大 数据 定价 困难 问题 ,文献 [65] 基 于 Micali-Rabin 的 安全 计算 技术 提出 一 种 具有 
大 数据 定价 功能 的 安全 委托 拍卖 方案 。 该 方案 首先 基于 Micali-Rabin 的 随机 向 量 表示 方法 
设计 满足 标价 密封 性 的 大 数据 拍卖 及 验证 算法 ; 然后 基于 Merkle 树 和 Bit 承诺 协议 实现 大 
数据 交易 中 数据 的 完整 性 和 底价 的 不 可 否认 性 ; 在 定价 阶段 ,他 们 利用 一 种 特殊 的 多 方 安 
全 计算 协议 隐藏 大 数据 的 底价 ,以 此 保障 了 大 数据 交易 的 公平 性 。 

文献 [66] 对 理性 安全 多 方 计算 (理性 安全 多 方 计算 主要 考虑 参与 者 的 动机 ,刻画 理性 参 
与 者 效用 函数 ,研究 在 各 种 条 件 下 参与 者 如 何 选择 策略 达到 均衡 ) 的 相关 研究 工作 进行 了 综 
述 ,介绍 了 理性 安全 多 方 计 算 的 发 展 状况 及 典型 成 果 并 指出 未 来 研究 方向 。 文 献 L[67] 介 绍 
了 实用 安全 多 方 计算 协议 关键 技术 研究 进展 ,其 中 重点 介绍 了 安全 多 方 计算 实用 化 的 3 种 
重要 技术 , 即 混乱 电路 优化 、 剪 切 -选择 技术 及 不 经 意 传输 扩展 技术 ,这 些 技术 在 不 同 的 方面 
显著 提高 了 安全 多 方 计算 协议 的 效率 。 文 献 [68] 对 云 环境 下 通用 安全 多 方 计算 协议 的 研究 
进行 了 综述 ,介绍 了 一 些 基 于 云 的 典型 特定 安全 多 方 计算 协议 ,并 指出 目前 云 中 安全 多 方 计 
算 存 在 的 问题 以 及 未 来 研究 的 方向 。 此 外 ,关于 安全 多 方 计算 的 最 新 研究 成 果 可 以 参考 文 
献 [69-83]。 


9.2.4 隐私 保护 


2006 年 ,美国 网 飞 公 司 (Netflix) 发 起 Netflix Prize 百 万 美金 推荐 系统 算法 竞赛 ,公开 
征集 电影 推荐 系统 的 最 佳 算法 ,能 把 现 有 推荐 系统 的 准确 率 提高 10% 的 参赛 者 将 获得 100 
万 美元 的 奖金 。 为 了 对 数据 进行 分 析 , 他 们 发 布 了 一 些 * 经 过 匿名 化 处 理 的 ”用户 影评 数据 
供 参 赛 者 测试 ,仅仅 保留 了 每 个 用 户 对 电影 的 评分 和 评分 的 时 间 戳 。 截 止 2009 年 9 月 ,来 
自 全 世界 186 个 国家 的 四 万 多 个 参赛 团队 经 过 近 三 年 的 较量 ,终于 有 了 结果 ,一 个 由 工程 师 
和 统计 学 家 组 成 的 七 人 团队 夺 得 了 大 奖 。 然 而 ,因为 发 布 的 数据 中 包含 用 户 不 愿意 泄露 的 
信息 ,此 项 竞赛 遭 到 了 用 户 的 起 诉 ,Netflix 也 不 得 不 取消 了 该 竞赛 。 

基因 序列 数据 能 够 为 个 性 化 医疗 服务 等 应 用 提供 决策 依据 ,其 数据 维度 可 以 达到 数 千 
万 。 它 与 某 些 疾 病 存在 特定 关联 .具有 身份 识别 能 力 ,并 且 能 够 揭示 家 族 关 系 。 因 此 ,基因 
序列 数据 是 一 种 重要 的 医疗 隐私 数据 ,需要 特别 的 隐私 保护 方案 。 而 一 些 看 似 不 重要 的 数 
据 , 比 如 用 户 的 心率 .血压 .血脂 .血糖 等 健康 状况 数据 ,它们 的 泄露 可 能 导致 诈骗 .歧视 以 及 
不 公平 对 待 等 系列 社会 问题 。 

随 着 移动 设备 的 迅速 普及 ,基于 地 理 位 置 的 服务 收集 了 大 量 的 个 人 位 置信 息 , 对 这 类 信 
息 进 行 挖掘 和 分 析 将 暴露 用 户 的 活动 轨迹 .生活 习惯 等 个 人 隐私 信息 ,甚至 可 能 导致 用 户 人 
身 安 全 受到 威胁 。 因 此 ,地 理 位 置 隐私 保护 也 迫在眉睫。 其 他 如 个 性 化 推荐 系统 .智能 城 
市 .社交 网 络 等 应 用 都 需要 提供 隐私 保护 。 

从 隐私 保护 的 角度 来 说 ,隐私 的 主体 是 单个 用 户 , 只 有 涉及 某 个 特定 用 户 的 敏感 信息 才 
叫 隐私 ,如 果 是 发 布 群体 用 户 的 信息 (一 般 叫 聚集 信息 ) 则 不 算 泄露 隐私 。 因 此 ,充分 利用 并 
挖掘 大 数据 的 价值 可 以 不 需要 涉及 任何 用 户 的 个 人 隐私 。 

在 健康 医疗 大 数据 领域 即 是 如 此 ,利用 好 这 些 大 数据 对 于 优化 资源 配置 、 提 供 临 床 决策 
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与 精准 医学 研究 等 具有 重要 的 价值 ,但 怎样 合理 、 合 法 地 利用 这 些 数据 的 同时 又 能 保障 用 户 
的 隐私 信息 ,是 当前 或 待 解决 的 问题 。 

20 世纪 90 年 代 中 叶 ,为 了 推动 公共 医学 研究 ,美国 马萨诸塞 州 保险 委员 会 发 布 了 政府 
雇员 的 医疗 数据 。 为 了 防止 用 户 隐私 泄露 ,在 数据 发 布 之 前 进行 了 匿名 化 处 理 , 即 删除 了 所 
有 的 敏感 信息 ,如 姓名 、 身 份 证 号 码 和 家 庭 住址 等 。 然 而 , 麻 省 理工 学 院 的 Sweeney 教授 成 
功 破解 了 这 份 匿名 化 处 理 后 的 医疗 数据 ,能够 确定 具体 某 一 个 人 的 医疗 记录 。 匿 名 医疗 数 
据 虽 然 删除 了 所 有 的 敏感 信息 ,但 仍然 保留 了 3 个 关键 字段 一 一 性 别 、 出 生日 期 和 邮编 。 
Sweeney 同时 有 一 份 公开 的 马萨诸塞 州 投票 人 名 单 (被 攻击 者 也 在 其 中 ) ,包括 投票 人 的 姓 
名 .性别 、 出 生日 期 ,住址 和 邮编 等 个 人 信息 。 她 将 两 份 数 据 进 行 匹配 , 即 可 确定 被 攻击 者 的 
医疗 记录 。Sweeney 进一步 研究 发 现 ,87% 的 美国 人 拥有 唯一 的 性 别 、 出 生日 期 和 邮编 三 元 
组 信息 ,同时 发 布 这 些 信 息 几 乎 等 同 于 直接 公开 。 这 也 是 公开 数据 整合 后 发 生 的 “1 十 1 二 2” 
造成 隐私 泄露 的 典型 案例 。 

早 在 20 世纪 80 年 代 初 ,Cox5s 便 首次 提出 了 匿名 化 的 概念 ,并 指出 这 种 方法 可 应 用 于 
隐私 信息 的 保护 。 

2002 年 ,Sweeney[ 晤 提出 &- 匿 名 (&-anonymity) 模 型 的 数据 匿名 化 隐私 保护 方法 ,考虑 
的 是 数据 拥有 者 想 与 其 他 用 户 共享 其 私有 数据 ,但 是 不 能 泄露 其 身份 应 用 场景 。 针 对 这 个 
问题 ,他 通过 泛 化 与 分 解 等 方式 对 原始 私有 数据 进行 匿名 化 处 理 , 有 效 地 解决 了 隐私 保护 问 
题 。&- 匿 名 模型 的 核心 思想 是 : 要 求 发 布 的 数据 中 每 一 条 记录 都 要 与 其 他 至 少 & 一 1 条 记 
录 不 可 区 分 ( 称 为 一 个 等 价 类 ) , 则 称 该 系统 提供 -匿名 保护 。 当 攻击 者 获得 -匿名 处 理 后 
的 数据 时 ,将 至 少 得 到 & 个 不 同人 的 记录 ,进而 无 法 做 出 准确 的 判断 。 参 数 & 表示 隐私 保 
护 的 强度 ,k 值 越 大 ,隐私 保护 的 强度 越 强 ,但 丢失 的 信息 也 就 越 多 ,数据 的 可 用 性 随 之 
降低 。 

2006 年 ,美国 康 奈 尔 大 学 的 Machanavajjhala 等 人 中 发 现 了 -匿名 模型 的 缺陷 , 即 没 
有 对 敏感 属性 做 任何 约束 ,攻击 者 可 以 利用 背景 知识 攻击 、 青 识别 攻击 和 一 致 性 攻击 等 方法 
来 确认 敏感 数据 与 个 人 的 关系 ,导致 隐私 泄露 。 例 如 ,攻击 者 获得 的 &- 匿 名 化 的 数据 ,如 果 
被 攻击 者 所 在 的 等 价 类 中 都 是 艾滋 病 病 人 ,那么 攻击 者 很 容易 做 出 被 攻击 者 肯定 患 有 艾滋 
病 的 判断 (上 述 就 是 一 致 性 攻击 的 原理 )。 为 了 防止 一 致 性 攻击 ,他 们 以 新 的 隐私 保护 模 
型 一 一 /- 多 样 性 (1-diversity) 改 进 了 k&- 匿 名 模型 ,保证 任意 一 个 等 价 类 中 的 敏感 属性 都 至 少 
有 /个 不 同 的 值 。 

针对 -匿名 模型 只 保护 身份 信息 ,不 能 保护 属性 信息 ,Truta 和 Vinay 提出 p- 敏 感 
-匿名 (p-sensitive &-anonymity) 模 型 。 他 们 给 出 了 实现 p- 敏 感 - 匿 名 性 质 的 两 个 必要 条 
件 ,并 使 用 泛 化 和 抑制 实现 了 一 个 满足 p- 敏 感 k- 匿 名 的 算法 。 同 一 年 ,Wong “A 提出 
(a ,用 )- 匿 名 模型 ,使 用 a 阅 值 对 敏感 属性 进行 约束 ,在 &- 匿 名 的 基础 上 ,进一步 保证 每 一 个 
等 价 类 中 与 任意 一 个 敏感 属性 值 相关 记录 的 百分比 不 高 于 a。 

针对 1- 多 样 性 模型 在 一 些 特 殊 情 况 下 不 适用 的 问题 ,Li Ag AUT 提出 了 1- 近邻 (1- 
closeness) 模 型 。 在 /- 多 样 性 模型 的 基础 上 ,该 模型 要 求 所 有 等 价 类 中 敏感 属性 的 分 布 尽量 
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接近 该 属性 的 全 局 分 布 , 即 两 个 分 布 之 间 的 距离 应 该 不 超过 阔 值 o Xiao 等 人 "提出 m 
变性 (mx-invariance) 匿 名 模型 ,在 支持 新 增 操 作 的 同时 ,支持 数据 重 发 布 对 历史 数据 集 的 删 
除 , 有 效 地 限制 了 重 发 布 中 的 隐私 泄露 风险 。 所 有 匿名 机 制 都 试图 尽量 减少 信息 丢失 ,然而 
这 种 尝试 却 为 攻击 提供 了 漏洞 , Wong 等 人 中 称 之 为 “最 小 性 ”攻击 。 他 们 提出 的 mx- 机 密 性 
Cm-confidentiality) 模 型 可 以 在 较 小 的 开销 和 信息 丢失 情况 下 抵制 此 类 攻击 。Sun Ag AP? 
提出 的 p -敏感 -匿名 (p71 -sensitive k-anonymity) (更 多 地 关注 值 所 属 的 类 别 ) 和 (p ,a)- 
敏感 -匿名 ((p ,a)-sensitive &-anonymity) (更 多 地 关注 特定 的 值 ) 模 型 可 以 实现 更 有 效 的 
隐私 保护 并 提高 效率 。Campan 等 人 中 提出 约束 p- 敏 感 - 匿 名 模型 ,并 实现 了 一 种 生成 约 
R p- 敏 感 - 匿 名 的 算法 。Chen 等 人 中 提出 的 局 部 抑制 方法 可 以 显著 提高 匿名 轨迹 数据 
中 的 数据 效用 。 文 献 L[95] 提 出 如 何 使 用 微 聚 合 来 生成 人 -匿名 大 近邻 数据 集 。 文 献 [96] 用 
信息 焙 模 型 刻画 属性 的 隐私 程度 ,进而 为 信息 泄露 风险 量化 提供 支撑 。 针 对 现 有 的 &- 匿 名 
模型 中 存在 泛 化 属性 选取 不 唯一 和 数据 过 度 泛 化 的 问题 , 宋 明 秋 等 人 5 引入 属性 近似 度 概 
念 , 提 出 多 属性 泛 化 的 -匿名 算法 。 

&- 匿 名 模型 及 其 改进 方法 存在 两 个 主要 的 缺陷 。 

(1) 这 些 模型 总 是 因为 新 型 攻击 方法 的 出 现 而 需要 不 断 改进 ,从 而 陷入 一 个 无 休止 的 
循环 中 。 

(2) 该 类 型 的 模型 对 攻击 者 的 背景 知识 和 攻击 模型 都 给 出 了 过 多 的 假设 ,但 这 些 假设 
在 现实 中 往往 并 不 完全 成 立 , 因 此 攻击 者 总 是 能 够 找到 各 种 各 样 的 攻击 方法 来 进行 攻击 。 
其 根本 原因 是 无 法 提供 一 种 有 效 且 严格 的 方法 来 证 明 其 隐私 保护 水 平 ,无 法 对 其 隐私 保护 
水 平 进 行 定量 分 析 。 

因此 ,研究 者 需要 寻找 一 种 新 的 、 鲁 棒 性 更 好 的 隐私 保护 模型 ,能 够 在 攻击 者 拥有 最 大 
背景 知识 的 条 件 下 抵抗 各 种 形式 的 攻击 。 差 分 隐私 保护 模型 就 是 在 这 样 的 需求 下 提出 的 。 

差分 隐私 (Differential Privacy,DP) 是 微软 研究 院 的 Dwork"! f 2006 年 提出 的 一 种 新 
的 隐私 保护 模型 。 该 方法 能 够 解决 传统 隐私 保护 模型 的 两 大 缺陷 ,具体 表现 如 下 。 

CD 定义 了 一 个 严格 的 攻击 模型 ,即使 在 最 大 背景 知识 假设 , 即 攻击 者 已 掌握 除 某 一 条 
记录 之 外 的 所 有 记录 信息 的 情况 下 ,仍然 无 法 获取 该 记录 的 隐私 信息 。 

(2) 对 隐私 保护 水 平 给 出 了 严格 的 数学 证 明和 量化 评估 方法 。 她 给 出 了 一 个 数学 描述 
来 测量 一 个 扰动 机 制 究竟 能 够 带 来 多 大 程度 上 的 保密 性 ,此 后 还 给 出 了 差分 隐私 保护 模型 
的 综述 c 。 

差分 隐私 保护 技术 允许 研究 者 在 不 泄露 个 体 信 息 的 前 提 下 对 一 个 数据 集 进 行 分 析 , 即 
保证 了 一 个 数据 集 的 每 个 个 体 信息 都 不 被 泄露 ,但 数据 集 整 体 的 统计 学 信息 (比如 均值 方 
差 ) 却 可 以 被 外 界 了 解 。 

差分 隐私 保护 的 目的 是 最 小 化 隐私 泄露 并 最 大 化 数据 效用 。 满 足 差分 隐私 的 标准 是 : 
知道 数据 中 的 一 条 记录 ,整个 数据 的 信息 炉 ( 不 确定 性 ) 几 乎 没有 改变 , 即 得 到 的 部 分 数据 内 
容 对 于 推测 出 更 多 的 数据 内 容 几乎 没有 帮助 。 因 此 , 它 具 有 信息 论 意义 上 的 安全 性 。 差 分 
隐私 (Differential Privacy,DP) 的 严格 定义 如 下 : 
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考虑 两 个 相似 的 数据 库 D 和 了 D“, 其 中 只 有 一 条 记录 的 数据 不 同 。 对 于 任意 参数 >, 
一 个 查询 函数 f 满足 e- 差 分 隐私 ,那么 两 个 数据 库 D 和 了 “的 查询 结果 在 概率 上 非常 接近 。 
即 对 于 任意 的 查询 结果 集合 R ,满足 

Pr[f(D) € R] & e Pr[f(D’) € R] 

既然 一 条 记录 的 改变 对 于 查询 结果 的 影响 不 大 ,那么 如 果 要 从 查询 结果 推测 记录 信息 
就 是 非常 困难 的 。 参数。 接近 于 0 时 ,e: 接近 于 1, 则 两 个 数据 集 的 查询 结果 越 接 近 相 等 ; e 
越 大 , 则 查询 结果 的 差异 越 大 , 越 没 有 隐私 ,但 查询 结果 也 越 精 确 。 在 差分 隐私 保护 模型 中 ， 
为 了 实现 隐私 保护 ,对 数据 加 入 了 噪声 ,使 得 数据 失真 。 因 为 在 这 种 扰动 机 制 下 ,D 中 任何 
单独 一 行 数据 存在 或 不 存在 都 几乎 不 影响 结果 。 

正 是 由 于 差分 隐私 保护 模型 的 诸多 优势 ,使 其 一 出 现 便 迅 速 取 代 传 统 隐 私 保护 模型 ,成 
为 当前 隐私 保护 研究 的 热点 ,并 引起 了 计算 机 科学 、 密 码 学 数据库、 数据 挖掘 、 机 器 学 习 和 
人 工 智能 等 多 个 领域 研究 者 的 关注 。 

差分 隐私 保护 是 基于 数据 失真 技术 ,在 数据 集中 加 入 满足 特定 分 布 的 随机 噪声 ,从 而 达 
到 隐私 保护 的 目的 。 但 所 加 入 的 噪声 量 与 数据 集 大 小 无 关 , 只 与 全 局 敏感 性 相关 。 因 此 ,对 
大 型 数据 集 , 仅 通过 添加 少量 的 噪声 就 能 达到 高 级 别 的 隐私 保护 。 常 见 的 机 制 有 拉 普 拉 斯 
(Laplace) BL Hi 、 指 数 C(exponential) 机 制 220 和 数据 库 访 问 机 制 222 。 

值得 一 提 的 是 ,2015 年 ,Dwork 等 人 "提出 应 用 差分 隐私 的 思想 可 以 解决 机 器 学 习 的 
过 度 拟 合 (over-fitting) 问 题 。 她 们 的 论文 发 表 在 了 2015 年 的 (科学 》(Science HALL. 

Havard 大 学 的 差分 隐私 实验 室 , 做 了 一 个 DP 的 原型 实现 (https://beta. dataverse. 
org/custom/DifferentialPrivacyPrototype/) ,用 户 可 以 上 传 一 个 数据 集 , 然 后 得 到 一 个 提供 
DP 保护 的 加 密 过 的 新 数据 集 。 

由 于 在 实际 应 用 中 要 找到 一 个 真正 可 信和 的 第 三 方 数据 收集 平台 是 很 困难 的 ,从 而 限制 
了 中 心 化 差分 隐私 技术 的 应 用 ,因此 一 些 研究 者 提出 了 本 地 化 差分 隐私 (Local Differential 
Privacy) 中 保护 技术 。 本 地 化 差分 隐私 保护 技术 将 数据 的 隐私 化 处 理 过 程 转移 到 每 个 
用 户 上 ,让 用 户 单独 地 处 理 和 保护 个 人 敏感 信息 。 例 如 ,苹果 公司 将 本 地 化 差分 隐私 保护 技 
术 应 用 在 操作 系统 OS 10 上 以 保护 用 户 的 个 人 数据 隐私 ,谷歌 公司 使 用 该 技术 从 Chrome 
浏览 器 采集 用 户 的 行为 统计 数据 。 

本 地 化 差分 隐私 保护 技术 充分 考虑 任意 攻击 者 的 背景 知识 ,并 对 隐私 保护 程度 进行 量 
化 ,同时 在 本 地 扰动 数据 ,可 以 抵御 来 自 不 可 信 第 三 方 数据 收集 者 的 隐私 攻击 o 

文献 [107] 对 本 地 化 差分 隐私 保护 技术 做 了 综述 。 他 们 首先 介绍 了 本 地 化 差分 隐私 的 
原理 与 特性 ,并 总 结 和 归纳 了 该 技术 的 当前 研究 工作 ,然后 重点 阐述 了 该 技术 的 研究 热点 ， 
包括 本 地 化 差分 隐私 下 的 频数 统计 ,均值 统计 以 及 满足 本 地 化 差分 隐私 的 扰动 机 制 设计 等 。 
在 对 已 有 技术 深入 对 比分 析 的 基础 上 ,他 们 指出 了 本 地 化 差分 隐私 保护 技术 的 未 来 研究 
挑战 。 

文献 [108] 分 析 了 差分 隐私 保护 模型 相对 于 传统 安全 模型 的 优势 ,对 差分 隐私 基础 理论 
及 其 在 数据 发 布 与 数据 挖掘 中 的 应 用 研究 进行 了 综述 。Zhu 等 人 "中 对 差分 隐私 在 数据 发 
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布 与 数据 分 析 两 个 领域 的 应 用 进行 了 综述 。 

具有 量化 特征 以 及 强 隐私 保护 特点 的 差分 隐私 保护 机 制 , 也 存在 一 个 弱点 : 由 于 对 背 
景 知识 的 假设 很 强 , 需 要 在 查询 结果 中 加 入 大 量 的 随机 化 ,导致 数据 的 可 用 性 急剧 下 降 。 

个 性 化 推荐 系统 "可 以 为 用 户 提供 定制 的 内 容 或 者 个 性 化 服务 ,但 是 需要 用 到 一 些 
用 户 的 隐私 信息 。 为 了 实现 隐私 保护 ,许多 推荐 系统 采用 了 协同 过 滤 技术 ,但 是 基于 矩阵 分 
解 的 技术 ”2 却 是 最 成 功 的 ,已 经 在 许多 真实 的 推荐 系统 中 得 到 了 应 用 。 此 外 , Hua 等 
人 DO 提出 了 一 种 隐私 保护 的 矩阵 分 解 机 制 , 考 虑 到 实际 的 矩阵 分 解 过 程 中 用 户 动态 加 入 
与 退出 ,以 及 推荐 系统 可 信和 与 不 可 信和 的 情况 ,提出 了 可 行 的 解决 方案 。 

文献 [113] 对 可 穿戴 设备 的 数据 隐私 保护 技术 进行 了 综述 ,他 们 以 可 穿戴 健康 跟踪 设备 
Fitbit 为 对 象 , 展 开 了 可 穿戴 设备 安全 与 隐私 实例 分 析 ,总结 了 面向 可 穿戴 设备 的 隐私 保护 
的 8 条 技术 途径 ,并 指出 需 进 一 步 研究 的 热点 问题 。 

对 于 位 置信 息 隐私 保护 ,可 以 分 为 以 下 几 类 。 

(1) 基于 虚假 数据 的 位 置信 息 隐私 保护 ,将 真实 数据 和 虚假 数据 一 起 发 送 给 服务 提供 
者 ,让 服务 提供 者 即使 分 析 位 置信 息 也 不 能 够 区 分 真实 数据 和 虚假 数据 。 

(2) 基于 限制 的 位 置信 息 隐 私 保护 ,有 选择 地 发 布 原始 数据 ,限制 某 些 数据 项 的 发 布 ， 
或 者 根据 区 域 的 敏感 程度 ,一 旦 用 户 进 入 敏感 区 域 , 将 限制 或 推迟 其 位 置 更 新 信息 。 

(3) 基于 泛 化 的 位 置信 息 隐 私 保护 ,将 所 有 位 置 点 泛 化 为 相对 应 的 匿名 区 域 , 通 过 泛 化 
与 分 解 等 方式 对 原始 私有 数据 进行 匿名 化 处 理 。 

(4) 利用 差分 隐私 的 位 置信 息 隐 私 保护 ,是 现今 地 理 位 置 隐私 保护 中 最 常用 的 技术 。 

关于 隐私 保护 的 研究 工作 非常 丰富 ,读者 可 以 参考 文献 [114-130]。 


9.2.5 举例 : 健康 医疗 大 数据 安全 保护 


健康 医疗 大 数据 是 指 在 人 的 全 生命 周期 中 ,所 有 健康 医疗 活动 产生 的 数据 的 集合 ,包括 
健康 保障 、 医 疗 服务 ,疾病 防 控 、 养 生 保健 以 及 食品 安全 等 多 方面 的 数据 。 

2016 年 6 月 ,国务 院 办 公 打 颁发 (关于 促进 和 规范 健康 医疗 大 数据 应 用 发 展 的 指导 意 
JL CT (REPE IO ,提出 “健康 医疗 大 数据 是 国家 重要 的 基础 性 战略 资源 ,健康 医疗 大 数据 
应 用 发 展 将 带 来 健康 医疗 模式 的 深刻 变化 ”, 为 健康 医疗 大 数据 的 发 展 定 下 了 基调 。 

《意见 ) 中 指出 ,针对 法 律 法 规 和 隐私 安全 问题 ,要 求 完善 数据 开放 共享 支撑 服务 体系 ， 
加 快 健康 医疗 数据 安全 体系 建设 ,制定 人 口 健康 信息 安全 规划 ,强化 国家 、 区 域 人 口 健康 信 
息 工 程 技术 能 力 ,注重 内 容 安全 和 技术 安全 ,确保 国家 关键 信息 基础 设施 和 核心 系统 自主 可 
控 与 安全 稳定 。 

2016 年 10 A ,中共 中 央 、 国 务 院 印发 了 《“ 健 康 中 国 2030” 规 划 纲 要 》, 提 出 加 强健 康 医 
疗 大 数据 应 用 体系 建设 ,推进 基于 区 域 人 口 健康 信息 平台 的 健康 医疗 大 数据 开放 共享 、 深 度 
挖掘 和 广泛 应 用 。 

随 着 大 数据 、 云 计算 ,移动 互联 、 人 工 智能 等 现代 信息 技术 的 高 速 发 展 ,使 得 健康 医疗 大 
数据 的 采集 ,存储 ,管理 和 处 理 成 为 可 能 。 健 康 医疗 大 数据 作为 国家 重要 的 基础 性 战略 资 
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源 , 将 带 来 健康 医疗 模式 的 深刻 变革 。 充 分 挖掘 并 利用 这 些 大 数据 资源 ,一 个 重要 的 基础 就 
是 要 实行 开放 共享 ,同时 确保 国家 关键 信息 基础 设施 和 核心 系统 自主 可 控 与 安全 稳定 。 

易 观 智库 发 布 了 (中 国 大 数据 市 场 年 度 综合 报告 2016) ,根据 这 份 报告 数据 显示 ,2015 
年 中 国 大 数据 市 场 规模 达到 105. 5 亿 元 ,同比 增长 39. 4%; 预计 未 来 3 一 4 年 ,市 场 规模 增 
长 率 将 保持 在 30% 以 上 。 

移动 信息 化 研究 中 心 对 2015 一 2020 年 中 国医 疗 健康 大 数据 市 场 规模 进行 了 统计 与 分 
析 , 如 图 9-1 所 示 。 预 计 到 2020 年 ,中 国医 疗 健康 大 数据 市 场 规模 将 达到 142. 8 亿 元 ,具有 
巨大 的 市 场 潜力 。 
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图 9-1 2015 一 2020 年 中 国医 疗 健康 大 数据 市 场 规模 
(单元 ; 亿 元 。 数 据 来 源 : 移动 信息 化 研究 中 心 ,2017 年 4 月 ) 


实现 健康 医疗 大 数据 的 开放 共享 是 健康 医疗 信息 化 发 展 的 重要 目标 。 自 2009 年 以 来 ， 
美国 .英国 等 国家 先后 出 台 相 关 政 策 ,建立 国家 统一 数据 开放 平台 。 但 数据 开放 共享 也 给 个 
人 隐私 与 数据 安全 带 来 严峻 挑战 ,在 开放 共享 的 同时 必须 强化 健康 医疗 信息 安全 的 技术 
支撑 。 

一 要 加 强健 康 医疗 行业 网 络 信息 安全 等 级 保护 、 网 络 信任 体系 建设 ,提高 信息 安全 监 
测 、 预 警 和 应 对 能 力 ; 二 要 建立 信息 安全 认证 审查 机 制 .数据 安全 和 个 人 隐私 影响 评估 体 
系 ,以 流程 化 .制度 化 确保 信息 安全 ;, 三 要 从 技术 上 采取 数据 封装 、 数 据 分 离 .去除 个 人 标识 
信息 等 措施 以 保护 个 人 隐私 。 

目前 ,医疗 和 健康 数据 呈 几 何 级 数 的 增长 ,主要 包括 医学 影像 病历、 检查 检验 结果 等 诊 
疗 数据 ,诊疗 费用 相关 的 支付 和 医保 数据 ,还 有 基因 测序 等 相关 的 患者 和 研发 数据 等 。 同 
时 ,疾病 与 患者 的 复杂 性 及 诊疗 的 多 样 性 导致 医疗 数据 结构 复杂 多 样 , 从 病历 检索 到 影像 识 
别 , 大 量 非 结 构 化 的 数据 需要 自动 分 析 和 特征 提取 ,数据 的 处 理 与 管理 比较 复杂 。 

在 产业 界 , 关 于 健康 医疗 大 数据 的 平台 有 Google 的 Google Health Chttps://www. 
google. com/health/) 微软 的 HealthVault(http://www. healthvault. com/) 和 阿里 巴巴 的 
阿里 健康 云 平台 (http://www. alihealth. cn/) 等 。 
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2008 年 推出 的 Google Health ,其 功能 主要 包括 建立 用 户 的 在 线 医 疗 档案 .从 医生 和 药 
房 下 载 医疗 档案 .获得 个 性 化 的 医疗 指南 .查询 医生 资质 以 及 与 家 人 或 医护 人 员 分 享 医疗 信 
息 等 。 由 于 缺乏 医务 人 员 的 参与 以 及 在 个 人 隐私 问题 上 遭 到 质疑 ,Google 在 2012 年 1 月 1 
日 关闭 了 这 项 服务 ,但 是 Google 在 医疗 健康 应 用 、 基 因 技 术 、 医 疗 大 数据 、 远 程 医疗 以 及 智 
能 穿戴 等 方面 一 直 投入 极 大 的 研发 经 费 。 
虽然 产业 界 投入 了 大 量 研发 经 费用 于 健康 医疗 领域 ,但 到 目前 为 止 ,还 没有 一 个 可 以 让 
所 有 个 人 用 户 和 医疗 机 构 都 愿意 共享 其 健康 医疗 数据 的 应 用 平台 ,其 中 个 人 隐私 保护 和 数 
据 安 全 仍 是 其 主要 阻碍 因素 之 一 。 
合 恩 伯 格 教授 在 其 著作 《大 数据 时 代 ) 中 中 表达 的 第 一 个 核心 观点 就 是 : 大 数据 即 全 数 
据 ( 即 ?一 Al) , 旨 在 收集 和 分 析 与 某 事 物 相 关 的 “全 部 ”数据 ,而 非 * 部 分 数据。 
近年 来 随 着 健康 医疗 信息 化 的 发 展 , 在 科学 研究 、 健 康 医疗 服务 和 管理 实践 中 形成 了 健 
康 医疗 大 数据 。 利 用 好 这 些 大 数据 对 于 优化 健康 医疗 资源 配置 .节约 信息 共享 成 本 、 创 新 健 
康 医疗 服务 的 内 容 与 形式 提供 临床 决策 与 精准 医学 研究 等 具有 重要 的 价值 ,发 展 潜力 巨 
大 。 举 例 而 言 ,实施 健康 医疗 大 数据 互通 共享 后 ,政府 可 以 更 好 地 了 解 居民 的 健康 状况 , 规 
划 区 域 医疗 顶层 设计 ,执行 监管 职能 ; 医院 可 以 提升 运营 效率 ,降低 运营 成 本 ,规避 医疗 责 
任 ; 医生 可 以 提高 医 技 ,降低 医疗 事故 风险 ; 患者 可 以 进行 自我 健康 管理 ,精准 用 药 , 降 低 
医疗 支出 ; 药 企 可 以 实现 精准 推广 ,辅助 新 药 研 发 ; 医疗 保险 可 以 实现 精准 控 费 ,以 设计 更 
好 的 产品 ,优化 赔付 流程 。 
然而 ,针对 爆炸 式 增长 且 结 构 多 样 复杂 的 健康 医疗 大 数据 ,为 了 收集 尽 可 能 全 面 的 数 
据 , 以 充分 发 挥 这 些 数据 的 潜力 与 价值 ,在 要 求 所 有 机 构 和 个 人 开放 共享 这 些 数据 的 同时 ， 
如 何 保障 个 人 隐私 与 数据 安全 ,是 当前 健康 医疗 大 数据 面临 的 最 大 挑战 。 
在 健康 医疗 领域 ,关于 隐私 保护 的 方案 还 比较 缺乏 。2016 年 ,Lin 等 人 中 提出 一 种 用 
于 体 域 网 (Body Area Networks,BANS) 的 差分 隐私 保护 方案 ,用 于 保护 可 穿戴 式 传感器 采 
集 的 大 数据 中 的 敏感 信息 。 该 方案 引入 了 动态 噪声 阔 值 的 概念 ,使 其 更 适合 于 处 理 大 数据 。 
针对 分 类 相似 攻击 (Categorical Similarity Attack, CSA) , 即 攻击 者 能 够 识别 敏感 值 类 
别 之 间 的 相似 性 时 ,p -敏感 -匿名 模型 不 能 保护 用 户 的 隐私 。 对 此 ,Anjum 等 人 "提出 
一 个 保护 PHRs 敏感 信息 的 平衡 六 -敏感 和 -匿名 模型 ,并 利用 高 级 Petri 网 (High-Level 
Petri Nets,HLPN) 对 所 提出 的 模型 进行 形式 化 分 析 , 然 后 利用 SMT LIB 和 Z3 求解 器 来 验 
证 其 性 能 ,利用 标准 化 指标 来 评估 发 布 数据 的 效用 。 结 果 表 明 , 该 扩展 的 平衡 p -敏感 
&- 匿 名 模型 能 提供 更 好 的 隐私 保护 和 效率 。 
另外 ,要 完全 实现 健康 医疗 大 数据 的 隐私 保护 ,其 重要 一 环 就 是 访问 控制 与 授权 管理 。 
目前 存在 以 下 几 方 面 问题 。 
* 由 于 患者 的 哪 部 分 临床 数据 能 够 被 医生 查看 ,需要 专业 的 医学 知识 才能 适当 定义 ， 
所 以 在 实际 系统 中 ,为 了 不 影响 医生 的 诊疗 工作 ,往往 给 予 尽量 多 的 权限 , 即 过 度 授 
权 。 这 样 便 会 出 现 好 奇 的 医生 可 能 访问 对 治疗 过 程 无 关 的 病人 数据 ,从 而 造成 患者 
隐私 泄露 。 
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。 缺乏 有 效 的 细 粒 度 授 权 方 式 。 比 如 在 区 域 医疗 及 基层 医疗 信息 系统 中 ,“ 医 疗 缴费 
通知 单 ” 这 个 客体 ,有 可 能 被 收费 员 ,药房 护士 ,社保 员工 等 多 种 用 户 访 问 , 会 造成 不 
必要 的 患者 隐私 泄露 。 为 了 满足 最 小 权限 原则 ,需要 合理 的 模型 来 描述 大 数据 场景 
下 复杂 主体 的 多 样 化 访问 需求 。 

针对 以 上 问题 ,Wang 等 人 5 提出 了 一 种 基于 风险 的 访问 控制 方案 。 该 方案 首先 明确 
定义 诚实 医生 与 好 奇 医 生 的 区 别 , 即 诚实 医生 只 访问 正常 治疗 过 程 所 必需 的 病人 数据 ,而 好 
奇 医 生 除 了 访问 必需 的 病人 数据 外 ,还 会 访问 一 些 额 外 的 病人 隐私 数据 。 利 用 信息 炉 来 描 
述 医 生 访问 行为 时 ,好 奇 医 生 由 于 访问 了 更 多 病人 数据 而 具有 更 高 的 炉 值 。 系 统 将 所 有 医 
生 访 问 行为 的 炉 作 为 可 容忍 的 风险 配额 分 配给 每 位 医生 ,在 治疗 过 程 中 ,每 位 医生 的 访问 行 
为 都 会 被 评估 风险 值 , 并 在 其 风险 配额 中 进行 扣 减 。 当 一 个 医生 的 风险 配额 被 扣 为 零 时 , 则 
不 能 再 进行 数据 访问 。 因 而 ,好 奇 医生 会 由 于 经 常 窒 探 病人 隐私 而 很 快 将 风险 配额 消耗 完 ， 
进而 被 管理 员 注 意 到 并 进行 防范 。 

惠 标 等 人 050 则 进一步 采用 了 最 大 期 望 (EM) 算 法 对 所 有 医生 的 历史 访问 行为 进行 分 
析 , 区 分 了 诚实 医生 和 好 奇 医 生 访问 行为 的 概率 分 布 ,并 以 诚实 医生 访问 行为 的 炉 作 为 系统 
可 承受 风险 的 基准 值 ,进一步 提高 了 风险 评估 和 实施 的 准确 性 。 

目前 在 医疗 领域 有 很 多 癌症 诊断 方法 ,其 中 病理 学 活体 检测 被 认为 是 最 为 可 信和 的 方法 。 
但 是 ,对 病理 学 切片 进行 分 析 却 是 一 件 困难 的 事情 ,因为 一 个 放大 40 倍 的 病理 切片 数字 图 
像 通常 包含 数 十 亿 像 素 ,病理 学 家 要 在 这 样 大 规模 的 数据 里 寻找 微 转移 .肿瘤 细胞 细小 群体 
等 早期 癌症 征兆 ,需要 对 大 量 的 图 像 数 据 进 行 分 析 处 理 。 随 着 计算 能 力 和 深度 学 习 算法 的 
发 展 ,研究 者 们 提出 多 种 基于 深度 学 习 算 法 的 方法 来 帮助 病理 学 家 有 效 审 查 切片 图 像 ,但 是 
已 有 的 方法 因为 图 像 切 片 对 周围 图 像 缺 少 关 联 而 导致 检测 结果 存在 假 阳 性 。 

2018 年 ,百度 硅谷 人 工 智 能 实验 室 (Baidu Silicon Valley Artificial Intelligence Lab) f 
究 人 员 提 出 一 种 基于 神经 条 件 随 机 场 (Neural Conditional Random Field, NCRF) 的 深度 学 
JER ,用 于 检测 全 切片 数字 化 图 像 (WSD 中 的 癌 细 胞 转移 。NCREF 通过 一 个 直接 位 于 
CNN 特征 提取 器 上 方 的 全 连接 CRE ,来 考虑 相 邻 图 像 块 之 间 的 空间 关联 。 他 们 提出 一 种 
新 的 深度 学 习 算 法 ,不 仅 分 析 单 个 小 图 片 ,也 将 图 片 相 邻 的 网 格 进行 关联 分 析 , 将 相 邻 切片 
之 间 的 空间 相关 性 通过 特定 类 型 的 概率 图 形 模型 (条 件 随 机 场 ) 进 行 建 模 。 通 过 考虑 相 邻 图 
片 之 间 的 相关 性 ,新 的 算法 可 以 极 大 地 减少 假 阳 性 。 

在 Camelyon16 挑战 赛 测 试 集 上 ,百度 的 算法 在 癌症 定位 上 的 得 分 (FROC) 为 0. 8096, 
超越 了 专业 的 病理 学 家 (0. 7240) 和 前 一 个 Camelyon16 挑战 赛 冠军 (0. 8074)。 并 且 百 度 还 
在 Github 上 开源 了 此 算法 ,希望 能 够 促进 病理 分 析 与 人 工 智能 领域 的 研究 。 

最 近 ,微软 公司 将 人 工 智 能 技术 引入 到 同 态 加 密 技 术 中 ,提出 了 在 加 密 数 据 上 的 训练 模 
型 系统 CryptoNets 7" ,可 以 利用 基于 RLWE 和 LWE 的 FHE 方案 对 数据 进行 加 密 , 然 后 
上 传 到 云 服务 器 。 云 服务 器 首先 对 人 工 前 馈 神经 网 络 模 型 使 用 密 文 数据 进行 训练 ,而 后 就 
可 以 使 用 人 工 前 馈 神经 网 络 对 提交 的 密 文 进行 预测 分 析 。 

现代 医学 是 建立 在 实验 基础 上 的 循 证 医学 ,医生 的 诊疗 结论 必须 建立 在 相应 的 诊断 数 
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据 上 ,影像 是 重要 的 诊断 依据 ,医疗 行业 80% 一 90% 的 数据 都 来 源 于 医学 影像 。 人 工 智 能 
的 深度 学 习 可 以 帮助 医生 完成 对 影像 的 分 类 .目标 检测 、 图 像 分 割 与 检索 ,还 可 以 帮助 医生 
对 影像 中 的 可 疑 位 置 进行 标注 以 及 定量 分 析 , 协 助 医生 完成 诊断 、 治 疗 工作 。 

那么 ,“ 人 工 智能 十 医学 影像 十 密码 学 ”是 否 可 以 帮助 医生 实现 更 好 的 诊疗 ,同时 还 能 保 
护 用 户 数 据 安全 与 隐私 ? 作者 认为 这 是 一 个 值得 研究 的 问题 。 


9.3 基于 NoSOL 的 大 数据 云 存储 


大 数据 带 来 大 机 遇 的 同时 ,大 数据 的 安全 高 效 管理 也 面临 更 大 的 挑战 ,特别 是 当前 半 结 
构 化 数据 与 非 结 构 化 数据 占据 了 绝对 比例 。 

针对 异 构 的 、 海 量 数据 的 大 数据 管理 系统 应 具有 以 下 几 个 特点 。 

。 高 可 扩展 性 ,满足 日 益 增长 的 数据 管理 需求 。 

。 高 性 能 ,满足 数据 读 写 的 实时 性 和 查询 处 理 的 高 性 能 。 

。 容错 性 ,保证 分 布 式 系 统 的 高 可 用 性 。 

。 可 伸缩 性 ,可 以 按 需 分 配 资源 。 

。 尽 可 能 低 的 运营 成 本 。 

由 于 传统 的 关系 型 数据 库 所 固有 的 局 限 性 ,如 峰值 性 能 、 伸 缩 性 、 容 错 性 、 可 扩展 性 差 等 
特性 ,已 经 很 难 满足 当前 海量 数据 的 柔性 管理 需求 。 

NoSQL(Not Only SQL) 数 据 存储 系统 "9 是 指 那些 非 关系 型 的 ,分 布 式 的 、 不 保证 
遵循 ACID 原则 的 数据 存储 系统 。ACID 是 指数 据 库 事务 正确 执行 的 4 个 基本 要 素 , 即 原 
子 性 (Atomicity) .一 致 性 (Consistency)、 隔 离 性 (Isolation, 又 称 独立 性 )、 持 久 性 (Durability) 。 
NoSQL 数据 库 有 4 种 类 型 : 键 值 (Key-Value) 数 据 库 、 文 档 型 数据 库 、 列 存储 数据 库 、 图 数据 
库 。 通 常 ,这 些 数据 库 在 存储 ,访问 和 数据 结构 设计 方式 上 有 所 差异 ,但 都 针对 不 同 的 使 用 
案例 和 应 用 程序 进行 了 优化 。 

常用 的 NoSQL 数据 库 有 Google 的 Big Table , Amazon 的 Dynamo, Apache 的 Cassandra, AE 
于 Hadoop HDFS 的 HBase、CouchDB、MongoDB 和 Redis 等 。 

NoSQL 数据 库 具 有 以 下 优势 。 

。 易 扩展 性 : 去 掉 关 系数 据 库 的 关系 型 特征 ,数据 之 间 无 关系 ,非常 容易 扩展 ,在 架构 
层面 具有 高 可 扩展 性 。 

高 性 能 的 大 数据 处 理 : 没有 关系 型 特征 ,数据 库 结构 简单 ,其 Cache 是 细 粒 度 的 记 

录 级 , 读 写 效率 很 高 。 

。 灵活 的 数据 模型 NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 ,随时 可 以 存储 自 定 
义 的 数据 格式 。 而 在 关系 数据 库 里 ,对 于 大 数据 量 的 表 进 行 字段 增删 是 一 件 开销 极 
大 的 工作 ,在 NoSQL 中 就 没有 这 个 问题 。 

* 高 可 用 性 : NoSQL 具有 高 可 用 的 架构 ,也 可 以 通过 复制 模型 实现 高 可 用 性 。 

NoSQL 数据 库 的 出 现 , 弥 补 了 关系 数据 库 的 不 足 ,能 极 大 地 节省 开发 和 维护 成 本 。 其 


第 9 章 ”大 数据 时 代 的 云 存 储 安全 |P 223 


中 ,文档 型 数据 库 旨 在 将 半 结 构 化 数据 存储 为 文档 ,通常 采用 JSON 或 XML 格式 ,可 以 看 
作 是 键 值 数据 库 的 升级 版 ,允许 文档 之 间 嵌 套 键 值 , 但 文档 型 数据 库 比 键 值 数据 库 的 查询 效 
率 更 高 。 下 面 以 MongoDB 文档 型 数据 库 为 例 介 绍 健康 医疗 数据 的 存储 。 

MongoDB 是 10gen 公司 开发 的 面向 文档 的 开源 的 非 关 系 型 数据 库 (NOSQL) 系 统 , 采 
用 C++ 语言 编写 ,是 当前 最 流行 的 NoSQL 数据 库 。 它 具有 高 可 用 性 、 高 性 能 ,易于 扩展 的 
特点 ,并 且 提 供 了 一 种 强大 、 灵 活 、 可 扩展 的 数据 存储 方式 。 与 关系 型 数据 库 (RDBMS) 相 
比 , MongoDB 存储 方式 具有 很 大 的 不 同 。 其 数据 的 逻辑 结构 对 比如 表 9-1 所 示 。 其 中 ， 
MongoDB 集合 类 似 于 RDBMS 的 表 ,而 文档 则 相当 于 RDBMS 表 中 的 记录 。 


表 9-1 MongoDB 数据 库 与 RMDBS 对 比 


项 目 数据 库 类 型 MongoDB RDBMS 
数据 容器 数据 库 数据 库 
数据 集 集合 表 
数据 项 文档 记录 
数据 类 型 插入 文档 合并 表 
数据 单元 域 (Field) 列 (Column) 
服务 器 MongoDB-server MySQL/ Oracle 


在 MongoDB 数据 库 中 ,文档 是 对 数据 的 抽象 ,采用 轻 量 级 的 二 进 制 数据 格式 BSON 
(Binary JSON) 存 储 。BSON 只 需要 使 用 很 少 的 空间 ,而 且 其 编 解码 效率 非常 高 ,即使 在 最 
坏 的 情况 下 ,BSON 格式 也 比 JSON 格式 在 最 好 的 情况 下 存储 效率 高 。MongoDB 数据 库 有 
以 下 优点 。 

。 强大 的 自动 化 shading 功能 。 

* 采用 内 存 文件 映射 机 制 实现 对 文档 的 读 写 操作 ,避免 了 频繁 的 磁盘 IO, 有 很 高 的 读 

写 效 率 。 

。 全 索引 支持 ,查询 非常 高 效 。 

* 面向 文档 (BSON) 存 储 , 数 据 模式 简单 而 强大 。 

。 支持 动态 查询 ,查询 指令 也 使 用 JSON 形式 的 标记 ,可 轻易 查询 文档 中 内 嵌 的 对 象 

及 数组 。 

。 支持 JavaScript 表达 式 查询 ,可 在 服务 器 端 执行 任意 的 JavaScript 函数 。 

以 健康 医疗 信息 管理 为 例 , 个 人 健康 记录 (Personal Health Records,PHRs) 数 据 往往 
是 结构 化 和 非 结 构 化 数据 的 混合 体 。 在 MongoDB 数据 库 中 ,PHRs 数据 存储 在 一 个 由 字 
段 组 成 的 集合 中 。 这 些 字 段 由 一 个 名 称 和 一 个 可 以 是 整数 或 字符 串 的 值 组 成 。 表 9-2 所 示 
为 一 个 明文 PHRs 的 示例 ,除了 包括 个 人 信息 ,疾病 和 电子 诊断 记录 外 ,还 可 能 包括 活动 模 
式 、 饮 食 习 惯 等 信息 。 其 中 的 病史 和 检查 医学 图 像 等 以 嵌 套 的 方式 存储 在 另外 的 文档 中 ,对 
于 超过 AMB 的 大 文件 将 使 用 GridFS 文件 规范 进行 分 块 存储 。 
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表 9-2 PHRs 示例 


个 人 信息 x 电子 诊断 记录 
姓名 “年龄 TEX ”电话 病史 药物 检查 医学 图 像 
Mike 45 Male — ***** Hepatitis B xxx 关 关 关 关 关 关 关 关 关 关 
Alice 24 Female ***** Tuberculosis ***** **xxx ***x* 
Bob 30 Male xxxxx Cardiopathy m xxx xxx 
Sara 16 Female ***** Diabetes XXX% 关 关 关 关 关 美美 关 关 关 


一 个 健康 医疗 信息 管理 系统 由 多 个 数据 库 (Database) 组 成 ,每 个 数据 库 由 一 组 集合 
(Collection) 组 成 ,每 个 集合 由 任意 个 文档 (Document) 组 成 ,而 文档 由 一 系列 字段 组 成 ,每 
个 字段 是 一 个 键 值 对 ,其 中 键 是 字段 名 称 , 值 为 对 应 的 属性 值 。 除 了 键 值 对 , MongoDB 还 
支持 数组 这 类 复杂 数据 结构 ,使 得 文档 可 以 赃 套 子 文档 或 者 数组 ,因此 可 以 不 用 像 关系 型 数 
据 库 那样 依靠 外 键 关联 其 他 的 集合 ,提高 了 数据 库 的 性 能 。MongoDB 的 文档 采用 JSON 的 
二 进 制 结构 ,可 以 节省 存储 空间 。 但 在 某 些 情况 下 ,可 以 牺牲 额外 的 存储 空间 换取 更 高 的 传 
输 速 度 。 如 图 9-2 所 示 为 一 个 典型 的 MongoDB 文档 结构 的 例子 。 

{ 
Name:"Bob", 
Address: {city:"Fuzhou" Country:"China"} , 
Hobby:['Football' 'Chess' 'Basketball']. 
Grade:[ {Lesson:"Computer",score:95},{Lesson:"Math" score:75}] 
j 
9-2 MongoDB 文档 结构 


MongoDB 数据 库 适 用 于 以 下 场景 。 
。 适用 于 实时 的 插入 、 更 新 与 查询 ,并 具备 应 用 程序 实时 数据 存储 所 需 的 复制 及 高 度 
伸缩 性 。 

。 非常 适合 文档 化 格式 的 存储 及 查询 。 

。 高 伸缩 性 的 场景 : MongoDB 非常 适合 由 数 十 或 者 数 百 台 服务 器 组 成 的 数据 库 。 

。 更 加 注重 性 能 而 非 功 能 的 应 用 场景 。 

Google Bigtable?*? (https: //cloud. google. com/bigtable/) Google 面向 大 数据 领域 
的 NoSQL 数据 库 服 务 。 它 也 是 为 Google 18 2: , Analytics (分 析 )、 地 图 和 Gmail 等 众多 核 
心 Google 服务 提供 支撑 的 数据 库 。HBase(Hadoop Database) 是 Apache 的 Hadoop 项 目 
的 子 项 目 ,是 Google Bigtable 在 Hadoop 上 的 开源 实现 。 

Bigtable 中 的 所 有 数据 在 传输 和 存储 时 都 会 进行 加 密 , 用 户 可 以 使 用 项 目 级 权限 来 控 
制 谁 有 权 访问 Bigtable 中 存储 的 数据 。Bigtable 的 设计 目标 是 低 延 迟 、 高 吞吐 量 以 及 巨 量 
工作 负载 ,可 以 将 Bigtable 用 作 大 规模 、 低 延迟 应 用 的 存储 引擎 ,也 可 将 其 用 于 吞吐 量 密集 
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型 数据 处 理 和 分 析 , 是 运营 和 分 析 型 应 用 ,如 物 联 网 分 析 和 金融 数据 分 析 的 理想 平台 。 

Google Cloud Datastore(https://cloud. google. com/datastore/) 是 Google 面向 网 页 
应 用 和 移动 应 用 的 可 大 规模 扩展 的 NoSQL 数据 库 。Cloud Datastore 可 自动 处 理 分 片 和 复 
制 操作 ,提供 一 个 具有 高 可 用 性 且 可 自动 扩展 的 持久 数据 库 。 

DynamoDB (https://aws. amazon. com/en/dynamodb/)# Amazon 的 NoSQL 云 数 据 
库 服务 ,适用 于 高 一 致 性 与 低 延 迟 的 应 用 场景 。 它 是 完全 托管 的 去 数据库 ,支持 文档 和 键 值 
存储 模型 。Amazon DynamoDB Accelerator (DAX) 是 一 种 完全 托管 且 高 度 可 靠 的 内 存 组 
存 , 即 使 每 秒 钟 的 请 求 数量 达到 数 百 万 .也 可 以 将 Amazon DynamoDB 的 响应 时 间 从 数 毫 
秒 缩短 到 数 微 秒 。DynamoDB 5j AWS Identity and Access Management (IAM) 集 成 ,可 以 
对 组 织 内 的 用 户 实现 精细 的 访问 控制 。 

表格 存储 (Table Store) (https://www. alibabacloud. com/zh/product/table-store) 是 
构建 在 阿里 云 飞天 分 布 式 系 统 之 上 的 NoSQL 数据 存储 服务 ,提供 海量 结构 化 和 半 结 构 化 
数据 的 存储 和 实时 访问 。 表 格 存储 以 实例 和 表 的 形式 组 织 数据 ,通过 数据 分 片 和 负载 均衡 
技术 ,达到 规模 的 无 颖 扩展 。Table Store 向 应 用 程序 屏蔽 底层 硬件 平台 的 故障 和 错误 ,能 
自动 从 各 类 错误 中 快速 恢复 ,提供 了 非常 高 的 服务 可 用 性 。Table Store 管理 的 数据 全 部 存 
储 在 SSD 中 并 具有 多 个 备份 ,提供 了 快速 的 访问 性 能 和 极 高 的 数据 可 靠 性 。 

村 小 勇 等 人 "中 对 大 数据 管理 系统 的 相关 工作 进行 了 综述 ,他 们 指出 大 数据 管理 技术 
正在 经 历 以 软件 为 中 心 到 以 数据 为 中 心 的 计算 平台 的 变迁 ,因此 传统 的 关系 型 数据 库 管 理 
系统 已 无 法 满足 现在 以 数据 为 中 心 的 大 数据 管理 的 需求 。 他 们 首先 回顾 了 数据 管理 技术 的 
发 展 历史 ,并 从 大 数据 管理 的 存储 ,数据 模型 .计算 模式 、 查 询 引 擎 等 方面 分 析 了 大 数据 管理 
系统 的 现状 ,指出 当前 大 数据 管理 系统 具有 模块 化 和 松 耦 合 的 特点 。 接 着 进一步 介绍 了 大 
数据 管理 系统 应 具备 的 数据 特征 .系统 特征 和 应 用 特征 ,指出 大 数据 管理 系统 技术 还 在 快速 
进化 之 中 ,预测 未 来 的 大 数据 管理 系统 应 具备 多 数据 模型 并 存 、 多 计算 模式 融合 .可 伸缩 调 
整 新 硬件 驱动 、 自 适应 调 优等 特点 。 


9.4 基于 区 块 链 的 大 数据 云 存储 


因为 比特 币 " 的 兴起 ,区 块 链 (Blockchain) 技 术 得 到 广泛 关注 并 被 应 用 于 包括 云 存 储 
与 大 数据 在 内 的 各 个 领域 。 区 块 链 因 其 去 中 心 化 .不 可 算 改 可 追溯 等 特征 ,可 以 为 应 用 系 
统 提供 较 好 的 安全 性 保障 。 本 节 首 先 对 区 块 链 技术 进行 概述 ,重点 介绍 一 些 基 于 区 块 链 技 
术 的 存储 系统 。 


9.4.1 区 块 链 概述 


2016 年 10 月 由 国家 工信部 信息 化 和 软件 服务 业 司 指导 编写 的 (中 国 区 块 链 技 术 和 应 
用 发 展 白皮书 ) 指 出 :“ 区 块 链 是 分 布 式 数据 存储 、 点 对 点 传输 、 共 识 机 制 . 加 密 算法 等 计算 
机 技术 在 互联 网 时 代 的 创新 应 用 模式 ”。 
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区 块 链 应 用 多 种 密码 学 技术 ,提供 了 一 种 去 中 心 化 .不 可 算 改 .可 追溯 以 及 不 可 抵赖 的 
网 络 平台 ,可 在 互 不 了 解 的 多 方 间 建 立 可 靠 的 信任 ,在 没有 第 三 方 中 介 机 构 的 协调 下 , 划 时 
代 地 实现 了 可 信 的 数据 共享 和 点 对 点 的 价值 传输 。 因 为 它 具 有 很 多 优秀 的 特征 ,目前 已 得 
到 产业 界 和 学 术 界 广泛 关注 并 在 各 个 领域 均 有 应 用 。 

区 块 链 包含 两 个 层面 的 含义 : 区 块 链 网 和 “Token 经 济 学 ”。 区 块 链 网 由 一 个 分 布 式 密 
码 学 共享 账本 和 点 对 点 网 络 构成 ,其 本 质 是 在 一 个 没有 信任 的 互联 网 上 构建 一 个 去 中 心 的 、 
可 信任 的 网 络 。 所 谓 “Token 经 济 学 ”, 是 指 在 区 块 链 网 之 上 构建 以 Token 为 手段 的 游戏 规 
则 和 激励 机 制 ,鼓励 区 块 链 的 参与 者 自 组 织 地 参与 游戏 ,并 按 规则 自动 获得 "收益 ”, 多 劳 多 
得 . 少 劳 少 得 、 惩 恶 扬 善 。 

由 于 参与 者 身份 不 可 抵赖 ,参与 者 之 间 达 成 的 交易 或 记录 不 可 自 改 ,参与 者 对 系统 的 贡 
献 和 交易 活动 可 完全 由 数字 化 Token 方式 计量 ,这 大 大 降低 了 系统 内 的 摩擦 ,使 得 交易 更 
加 高 效 ,成 本 更 加 低廉 。 利 用 Token 经 济 学 中 的 激励 机 制 ,可 以 让 区 块 链 的 所 有 用 户 按 规 
则 自动 付出 或 者 获得 “收益 ”, 实 现 用 户 之 间 的 公平 与 公正 ,避免 了 云 存储 集中 式 环境 下 的 恶 
意 服务 器 返回 错误 的 查询 结果 ,仍然 可 以 得 到 用 户 付出 的 薪酬 。 总 之 ,利用 区 块 链 可 以 提高 
效率 ,实现 参与 方 之 间 的 公平 性 :减少 中 间 环 节 ,降低 交易 成 本 。 

区 块 链 具 有 在 去 中 心 的 数字 环境 中 共享 信息 、 转 移 价值 和 记录 交易 的 潜力 ,应 用 包括 供 
应 链 管理 ,知识 产权 登记 、 数 字 支 付 \ 股 权 转 让 和 数字 货币 等 。 

区 块 链 技术 可 用 于 解决 大 数据 共享 中 的 价值 激励 与 数据 安全 问题 ,因此 在 这 方面 也 取 
得 了 丰富 的 研究 成 果 。 下 面 将 对 一 些 基于 区 块 链 技术 的 存储 系统 进行 介绍 。 


9.4.2. 基于 区 块 链 技术 保障 大 数据 安全 


凭借 着 去 中 心 化 、 不 可 算 改 、 可 追溯 以 及 不 可 抵赖 等 特性 ,区 块 链 技 术 得 到 广泛 关注 ,有 
一 些 存 储 系统 开始 采用 区 块 链 技术 来 保障 大 数据 的 存储 安全 。 目 前 已 经 诞生 了 一 大 批 基于 
区 块 链 的 存储 系统 。 

与 集中 式 存 储 技 术 不 同 , 基 于 区 块 链 的 分 布 式 存储 技术 通过 P2P 网 络 将 数据 存储 在 网 
络 中 的 各 个 节点 上 ,将 这 些 分 散 的 存储 资源 整合 成 一 个 虚拟 的 统一 存储 空间 。 

1. Storj 

Storj (发 音 同 Storage) (https: //storj. io/) 是 针对 云 存 储 领 域 开发 的 开源 区 块 链 项 目 ， 
声称 是 未 来 的 云 存 储 , 它 能 保证 任何 时 候 对 用 户 上 传 到 区 块 链 的 内 容 进行 加 密 。Stori 主张 
要 促进 他 们 的 云 存储 比 传统 云 存 储 速 度 快 10 倍 ,但 价格 却 要 便宜 50% ,同时 使 所 有 Storj 
用 户 更 加 分 散 、 可 访问 和 更 加 安全 。Stori 是 一 个 基于 以 太 坊 (Ethereum) 的 去 中 心 化 分 布 
式 云 存储 平台 , 它 将 文件 加 密 , 然 后 将 加 密 文件 分 解 成 更 小 的 数据 块 , 分 散 地 存储 在 网 络 上 。 

Stor) 有 一 个 中 心 化 的 奖励 机 制 , 即 每 个 月 Storj 官方 会 根据 每 个 用 户 的 存储 量 来 发 放 
奖励 。Storji 有 多 平台 图 形 界面 应 用 DriveShare, 让 所 有 普通 用 户 可 以 自由 地 分 享 他 们 的 硬 
盘 空 间 , 而 不 需要 任何 特殊 的 IT 技能 。 

Storjcoin X(SJCX) 是 Storj 网 络 系统 的 一 种 代 币 , 它 可 以 像 * 燃 料 ” 一 样 允许 用 户 在 
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DirveShare 的 应 用 中 使 用 ,通过 SJCX 来 租用 或 者 购买 存储 空间 。 代 币 通常 会 优先 提供 给 
对 社区 有 贡献 的 人 ,每 个 人 都 有 机 会 通过 贡献 存储 资源 来 赚 取 SJCX, 也 可 以 阻止 没有 
SJCX 的 恶意 节点 通过 运作 很 多 节点 来 攻击 网 络 。 

在 Storj 中 ,用 户 的 数据 会 被 自动 分 片 存放 在 不 同 节点 ,通过 端 到 端 加 密 进 行 保护 。 这 
些 分 片 可 以 实现 “并 行 下 载 ”, 从 而 提高 数据 读 取 速 度 。 若 用 户 要 从 区 块 链 上 下 载 内 容 , 就 必 
须 使 用 对 应 的 私 钥 , 从 而 保障 区 块 链 上 数据 的 安全 。 事 实 上 ,作者 在 华中 科技 大 学 读 研究 生 
时 ,所 在 团队 就 开发 了 一 个 这 样 的 应 用 ,由 所 有 加 入 共享 系统 的 用 户 共享 空闲 磁盘 ,同时 给 
予 用 户 对 应 的 权限 ,比如 读 取 文件 资源 的 权限 。 只 是 当时 没有 代 币 ,好 处 是 体现 在 用 户 可 读 
取 的 资源 上 。 

2. IPFS 

星际 文件 系统 (InterPlanetary File System. IPFS) (https://ipfs. io/) 的 提出 者 认为 
HTTP 协议 存在 效率 低下 .服务器 成 本 晶 贵 .中心 化 的 网 络 存在 瓶颈 等 诸多 缺点 ,为 此 设计 
了 IPFS 来 解决 或 者 弥补 HTTP 的 一 系列 次 端 。 因 此 ,IPFS 是 一 个 从 基础 层 而 不 是 应 用 层 
重新 设计 云 存 储 的 去 中 心 化 的 云 存储 系统 。 

IPFS 旨 在 创建 持久 上 且 分 布 式 存储 和 共享 文件 的 网 络 传输 协议 ,实现 内 容 可 寻 址 的 对 等 
超 媒 体 分 发 协议 ,可 以 让 网 络 更 快 .更 安全 、 更 开放 。IPFS 网 络 中 的 节点 构成 一 个 面向 全 球 
的 、 点 对 点 的 分 布 式 版 本 文件 系统 ,试图 将 所 有 具有 相同 文件 系统 的 计算 设备 连接 在 一 起 。 
IPFS 可 以 从 本 质 上 改变 网 络 数据 的 分 发 机 制 。 

IPFS 中 每 个 文件 及 其 中 的 所 有 块 都 被 赋予 一 个 被 称 为 加 密 散 列 的 唯一 指纹 ,用 户 可 以 
通过 该 指纹 查找 文件 。IPFS 通过 计算 可 以 判断 哪些 文件 是 宛 余 重 复 的 ,然后 通过 网 络 删除 
具有 相同 哈 希 值 的 文件 ,并 跟踪 每 个 文件 的 历史 版 本 记录 。 

与 HTTP 相 比较 ,IPFS 基于 内 容 寻 址 ,而 非 基于 域名 寻 址 。 一 个 文件 存 人 了 IPFS 网 
络 , 将 基于 文件 内 容 被 赋予 唯一 的 加 密 哈 希 值 ; 此 外 ,IPFS 提供 文件 的 历史 版 本 控制 器 ,让 
多 节点 使 用 保存 不 同 版 本 的 文件 。 

IPFS 网 络 使 用 区 块 链 存 储 文件 的 哈 希 值 表 ,用 户 通过 查询 区 块 链 获 取 要 访问 文件 的 地 
Hb. IPFS 使 用 FileCoin 作为 代 币 ,矿工 通过 为 网 络 提供 开放 的 硬盘 空间 获得 Filecoin ,而 用 
户 则 用 Filecoin 来 支付 在 去 中 心 化 网 络 中 存储 加 密 文件 的 费用 。 

3. Sia 

Sia(https://sia. tech/) 是 一 种 基于 区 块 链 技术 的 开源 云 存 储 系统 , 它 是 基于 工作 量 证 
明 来 (Proof Of Work,POW) 达 成 共识 。 

Sia 的 主要 目标 是 提供 分 散 式 的 、 激 励 性 的 拜占庭 容错 存储 系统 。Sia 支持 块 上 的 智能 
合约 ,由 于 智能 的 元 余 管理 ,Sia 的 存储 比较 便宜 。 

在 Sia 中 ,用 户 的 数据 会 被 加 密 并 自动 分 片 存放 在 不 同 节点 ,其 存储 与 访问 过 程 与 
Storj FAW. Sia 网 络 的 加 密 货币 叫 Siacoin, 被 用 来 在 Sia 网 络 上 购买 存储 空间 ,存储 资源 提 
供 者 也 会 收 到 Siacoin 作为 回报 。 

此 外 ,MaidSafe(https://maidsafe. net/) 也 是 一 个 实现 与 Storj 及 Sia 类 似 功能 的 分 布 
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式 存储 系统 , 它 的 代 币 是 Safecoin (http://www. safecoin. io) 。 

除了 以 上 产业 界 的 研究 成 果 与 产品 ,科研 工作 者 也 取得 了 丰硕 的 研究 成 果 。 

针对 能 源 互 联网 企业 内 部 与 外 部 数据 共享 过 程 中 ,存在 集中 部 署 导致 访问 受 限 、 标 识 不 
唯一 \ 易 被 窃取 或 算 改 等 安全 问题 ,文献 [142] 对 基于 区 块 链 的 数据 安全 共享 网 络 体系 展开 
研究 ,构建 了 基于 区 块 链 的 数据 安全 共享 网 络 体系 ,包括 去 集中 化 数据 统一 命名 技术 及 服 
务 .授权 数据 分 布 式 高 效 存 储 和 支持 自主 对 等 的 数据 高 效 分 发 协议 。 他 们 设计 了 开放 式 数 
据 索 引 命名 结构 (Open Data Index Naming Structure, ODIN) ,阐述 了 ODIN 运行 机 制 ,并 
且 设 计 了 基于 ODIN 的 去 中 心 化 DNS 的 域名 协议 模块 ,为 数据 间 P2P 安全 可 信 共 享 黄 定 
了 基础 。 最 后 ,对 去 中 心 化 DNS 的 功能 进行 验证 ,为 实现 企业 内 部 及 企业 间 的 数据 安全 共 
享 构建 了 一 种 可 信 的 网 络 环境 。 

现 有 数据 共享 模型 存在 如 下 缺陷 。 

D 以 关键 字 为 基础 的 数据 检索 无 法 高 效 发 现 可 连接 数据 集 。 

@ 数据 交易 缺乏 透明 性 ,无 法 有 效 检 测 及 防范 交易 参与 方 串 谋 等 舞弊 行为 。 

C) 数据 所 有 者 失去 数据 的 控制 权 、 所 有 权 ,数据 安全 无 法 保障 。 

针对 这 些 问题 ,文献 L[143] 利 用 区 块 链 技术 建立 了 一 种 全 新 的 去 中 心 化 数据 共享 模型 。 
他 们 首先 从 共享 数据 集中 提取 多 层面 元 数据 信息 ,通过 各 共识 节点 建立 域 索 引 以 解决 可 连 
接 数据 集 的 高 效 发 现 问题 ; 然后 从 交易 记录 格式 及 共识 机 制 人 手 ,建立 基于 区 块 链 的 数据 
交易 ,实现 交易 的 透明 性 及 防 串 谋 等 舞弊 行为 ; 最 后 依据 数据 需求 方 的 计算 需求 编写 计算 
合约 ,借助 安全 多 方 计算 及 差分 隐私 技术 保障 数据 所 有 者 的 计算 和 输出 隐私 。 实 验 表明 ,他 
们 所 提出 的 域 索 引 机 制 在 可 接受 的 召回 率 范围 内 ,连接 数据 集 查 准 率 平 均 提 高 22%% 。 

随 着 以 比特 币 为 代表 的 区 块 链 技术 的 莲 勃 发 展 , 区 块 链 开始 逐步 超越 可 编程 货币 而 进 
入 智能 合约 时 代 。 智 能 合约 (Smart Contract) 是 一 种 由 事件 驱动 的 具有 状态 的 代码 合约 ， 
它 利用 协议 和 用 户 接口 完成 合约 过 程 ,允许 用 户 在 区 块 链 上 实现 个 性 化 的 代码 逻辑 。 

文献 [144] 对 基于 区 块 链 的 智能 合约 技术 与 应 用 进行 了 综述 。 他 们 首先 闹 述 了 智能 合 
约 技术 的 基本 概念 ,全 生命 周期 基本 分 类 、 基 本 架构 、 关 键 技术 、 发 展现 状 以 及 智能 合约 的 
主要 技术 平台 ; 然后 探讨 了 智能 合约 技术 的 应 用 场景 以 及 发 展 中 所 存在 的 问题 ; 最 后 , 基 
于 智能 合约 理论 ,他们 搭建 了 以 太 坊 实 验 环境 并 开发 了 一 个 智能 合约 系统 。 

文献 [145] 对 区 块 链 技术 的 架构 及 进展 进行 了 综述 ,他 们 结合 比特 币 、 以 太 坊 和 
Hyperledger Fabric 等 区 块 链 平台 ,提出 了 区 块 链 系 统 的 体系 架构 ,从 区 块 链 数 据 、 共 识 机 
制 , 智 能 合约 、 可 扩展 性 、 安 全 性 几 个 方面 阐述 了 区 块 链 的 原理 与 技术 ,通过 与 传统 数据 库 的 
对 比 总 结 了 区 块 链 的 优势 .劣势 及 发 展 趋势 。 

文献 [146] 对 区 块 链 安全 研究 进行 了 综述 。 他 们 分 层 介绍 了 区 块 链 的 基本 技术 原理 ,并 
从 算法 .协议 使用、 实现 .系统 的 角度 出 发 ,对 区 块 链 技术 存在 的 安全 问题 做 了 分 模块 阐述 。 
他 们 讨论 了 区 块 链 面临 的 安全 问题 的 本 质 原因 ,主要 分 析 协 议 安全 性 中 的 共识 算法 问题 E 
现 安全 性 中 的 智能 合约 问题 ,以 及 使 用 安全 性 中 的 数字 货币 交易 所 安全 问题 。 最 后 ,他们 分 
析 了 现 有 区 块 链 安全 保护 措施 存在 的 缺陷 ,给 出 了 区 块 链 安全 问题 的 解决 思路 ,并 明确 了 区 
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块 链 安全 的 未 来 研究 方向 。 

文献 [147] 介 绍 了 区 块 链 理论 研究 进展 ,他 们 先 从 比特 币 区 块 链 的 视角 出 发 ,通过 了 解 
其 运行 机 制 、. 基 本 特征 ,关键 技术 技术 挑战 等 ,建立 起 对 区 块 链 的 直观 感受 ; 然后 给 出 区 块 
链 的 形式 化 定义 ,并 总 结 目前 区 块 链 在 相关 密码 技术 、 安 全 性 分 析 、 共 识 机 制 、 隐 私 保 护 、 可 
扩展 性 等 方面 的 最 新 研究 进展 。 

文献 [148] 曾 述 了 区 块 链 技 术 及 其 在 信息 安全 领域 的 研究 进展 ,从 区 块 链 的 基础 框架 、 
关键 技术 、 技 术 特 点 、 应 用 模式 、 应 用 领域 这 5 个 方面 介绍 了 区 块 链 的 基本 理论 与 模型 ; 然 
后 从 区 块 链 在 当前 信息 安全 领域 研究 现状 的 角度 出 发 ,综述 了 区 块 链 应 用 于 认证 技术 ,访问 
控制 技术 ,数据 保护 技术 的 研究 进展 ,对比 了 各 类 研究 的 特点 ; 最 后 ,分 析 了 区 块 链 技术 的 
应 用 挑战 ,对 区 块 链 在 信息 安全 领域 的 发 展 进行 了 总 结 与 展望 。 

文献 [149] 对 区 块 链 隐私 保护 研究 工作 进行 了 综述 ,他 们 定义 了 区 块 链 技术 中 身份 隐私 
和 交易 隐私 的 概念 ,分 析 了 区 块 链 技术 在 隐私 保护 方面 存在 的 优势 和 不 足 ,并 分 类 描述 了 现 
有 研究 中 针对 区 块 链 隐私 的 攻击 方法 ,例如 交易 溯源 技术 和 账户 聚 类 技术 ; 然后 详细 介绍 
针对 区 块 链 网 络 层 、 交 易 层 和 应 用 层 的 隐私 保护 机 制 , 包 括 网 络 层 恶 意 节点 检测 和 限制 接 入 
技术 、 区 块 链 交 易 层 的 混 币 技术 、 加 密 技术 和 限制 发 布 技术 ,以 及 针对 区 块 链 应 用 的 防御 机 
制 ; 最 后 ,分 析 了 现 有 区 块 链 隐私 保护 技术 存在 的 缺陷 ,展望 了 未 来 发 展 方向 。 

此 外 ,还 有 一 些 关 于 区 块 链 的 可 扩展 性 研究 ”5 GL ARTT 、 医 疗 数据 共享 模型 "2 
以 及 综述 5 。 


9.5 存在 的 问题 和 未 来 发 展 方向 


大 数据 带 来 大 挑战 ,虽然 在 产业 应 用 与 科研 方面 已 经 取得 了 丰富 的 研究 成 果 ,但 仍然 存 
在 一 些 有 待 解决 的 问题 ,主要 包括 以 下 几 个 方面 。 

1. 因果 逻辑 或 相关 性 

大 数据 时 代 , 到 底 是 寻求 因果 逻辑 ,还 是 找到 相关 性 ?“ 世 间 万 物 第 有 定数 ,万 物 强 有 
因 , 万 般 强 有 果 ”“ 种 瓜 得 瓜 , 种 豆 得 豆 ”, 这 是 因果 论 的 思想 ,认为 事物 都 有 一 定 的 因果 关系 。 

在 现实 生活 中 ,有 一 些 复杂 的 问题 ,找到 因果 逻辑 的 难度 非常 大 。 因 此 ,在 大 数据 时 代 ， 
即使 没有 找到 原因 , 却 能 够 从 大 量 的 数据 中 直接 找到 答案 , 即 从 大 数据 中 找到 相关 性 进而 寻 
求 答 案 , 这 也 是 大 数据 思维 的 核心 。 

正如 吴军 在 (智能 时 代 六 及 中 所 说 ,在 今天 的 搜索 引擎 中 ,都 有 一 个 度量 用 户 点 击 数据 
和 搜索 结果 相关 性 的 模型 ,通常 称 之 为 点 击 模 型 "*。 随 着 数据 量 的 积累 ,点 击 模 型 对 搜索 结 
果 排 名 的 预测 越 来 越 准 确 , 其 重要 性 也 越 来 越 大 ,在 搜索 引擎 中 已 至 少 占 到 70% ~ 80 24 HY 
权重 ,所 有 其 他 因素 加 起 来 都 没有 它 重 要 。 一 个 搜索 引擎 使 用 的 时 间 越 长 ,数据 的 积累 就 越 
充分 ,才能 够 有 足够 多 的 数据 来 训练 模型 ,对 于 那些 不 太 常 见 的 搜索 就 越 准确 。 使 用 “点 击 
模型 "可 以 有 效 地 提高 搜索 的 准确 率 , 而 这 种 方法 说 不 上 有 什么 因果 逻辑 ,但 却 实 实 在 在 地 
对 用 户 有 益 。 
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采用 大 数据 时 代 的 方法 论 或 大 数据 思维 ,一 些 公司 可 以 不 用 花 大 量 的 时 间 和 资源 来 寻 
找 确定 的 因果 关系 ,而 是 通过 从 大 量 的 数据 中 挖掘 相关 性 ,从 而 改进 其 产品 ,因此 产品 更 新 
更 快 。 

在 无 法 确定 因果 关系 时 ,数据 为 我 们 提供 了 解决 问题 的 新 方法 。 数 据 中 所 包含 的 信息 
可 以 帮助 我 们 消除 不 确定 性 ,而 且 数据 之 间 的 相关 性 在 某 种 程度 上 可 以 取代 原来 的 因果 关 
系 ,帮助 我 们 找到 答案 ,这 就 是 大 数据 思维 的 核心 。 从 这 个 角度 来 说 ,因果 关系 已 经 没有 数 
据 的 相关 性 重要 了 。 

但 是 李开复 在 (人 工 智 能 六 祝 一 书 中 提 到 :“ 实 用 主义 意味 着 不 求 甚 解 。 即 便 一 个 深度 
学 习 模 型 已 经 被 训练 得 非常 聪明” ,可 以 非常 好 地 解决 问题 ,但 很 多 情况 下 , 连 设计 整个 水 
管 网 络 的 人 也 未 必 能 说 清楚 ,为 什么 管道 中 每 一 个 阀门 要 调节 成 这 个 样子 。 也 就 是 说 ,人 们 
通常 只 知道 深度 学 习 模 型 是 否 工作 , 却 很 难说 出 模型 中 某 个 参数 的 取 值 与 最 终 模型 的 感知 
能 力 之 间 , 到 底 有 怎样 的 因果 关系 。” 

“由 此 引发 的 一 个 哲学 思辩 是 ,如 果 人 们 只 知道 计算 机 学 会 了 做 什么 ,却说 不 清 计 算 机 
在 学 习 过 程 中 掌握 的 是 一 种 什么 样 的 规律 , 那 这 种 学 习 本 身 会 不 会 失控 7?” 

欧洲 核子 研究 中 心 (CERN) 的 大 型 强 子 对 撞 机 用 于 发 现 希 格 斯 玻 色 子 , 从 而 获得 有 史 
以 来 最 大 规模 的 单位 时 间 数 据 。 这 项 研究 的 目的 就 是 为 了 回答 关于 因果 关系 最 伟大 的 问 
题 ; 希 格 斯 玻 色 子 是 否 存在 ,我 们 的 宇宙 是 否 有 可 能 用 标准 模型 刻画 。 这 是 对 人 类 起 源 的 
因果 逻辑 的 探索 ! 

正如 《大 数据 时 代 ) 吕 下 的 译 者 所 说 ,“ 认 为 相关 重 于 因果 ,是 某 些 有 代表 性 的 大 数据 分 
析 手 段 ( 辟 如 机 器 学 习 ) 里 面 内 京 的 实用 主义 的 魅影 , 绝 非 大 数据 自身 的 诉求 。 从 小 处 讲 ， 
(大 数据 时 代 ) 作 者 试图 避免 的 数据 的 独裁 * 和 “错误 的 前 提 导 致 错误 的 结论 ' ,其 解决 之 
道 恰 在 于 挖掘 因果 逻辑 而 非 相 关 性 ; 从 大 处 讲 , 放 弃 对 因果 性 的 追求 ,就 是 放弃 了 人 类 凌驾 
于 计算 机 之 上 的 智力 优势 ,是 人 类 自身 的 放纵 和 堕落。 如 果 未 来 某 一 天 机 器 和 计算 完全 接 
管 了 这 个 世界 ,那么 这 种 放弃 就 是 末日 之 始 。” 

本 书 作者 亦 认 为 ,虽然 大 数据 思维 可 以 从 数据 的 相关 性 中 得 到 很 多 意 想不到 的 结果 ,也 
可 以 帮助 人 们 解决 很 多 实际 的 生活 难题 ,但 这 并 不 能 让 我 们 忘记 初 心 ,放弃 对 事物 本 原 的 探 
索 , 去 追寻 一 切 事物 的 前 因 后 果 。 也 正如 著名 物理 学 家 张 首 晨 教 授 所 言 :“ 如 今 ,我 们 生存 
的 周围 世界 复杂 而 多 变 ,但 若是 能 够 对 万 物 寻 根 济源 ,我 们 就 可 以 用 简单 对 抗 复 杂 , 赢 得 效 
率 的 提高 。” 

因为 这 是 研究 大 数据 的 一 个 基本 问题 ,可 以 引发 无 穷 的 思考 ,同时 也 需要 在 做 任何 大 数 
据 的 研究 时 ,需要 记 住 的 一 个 基本 原则 ,所 以 在 此 特别 指出 。 

2. 数据 真 伪 难 辩 是 大 数据 应 用 的 最 大 挑战 

李 建 中 等 人 中 介绍 了 大 数据 可 用 性 的 研究 进展 ,在 数据 可 用 性 的 表达 机 理 、 数 据 可 用 
性 判定 的 理论 和 算法 .数据 错误 检测 与 修复 的 理论 与 方法 高 质量 数据 获取 的 理论 与 方法 、 
弱 可 用 数据 近似 计算 的 理论 与 方法 等 方面 取得 了 大 量 研究 结果 ,也 有 一 些 数据 错误 检测 和 
修复 系统 。 他 们 首先 给 出 了 数据 可 用 性 的 基本 概念 ,然后 讨论 数据 可 用 性 的 挑战 与 研究 问 
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题 并 综述 了 数据 可 用 性 方面 的 研究 成 果 , 最 后 总 结 了 大 数据 可 用 性 的 未 来 研究 方向 。 

在 文中 ,他 们 也 通过 统计 数据 指出 数据 真 伪 难 辩 是 大 数据 应 用 的 最 大 挑战 。 国 外 权威 
机 构 的 统计 数据 表明 : 美国 的 企业 信息 系统 中 ,1%% 一 30%% 的 数据 存在 各 种 错误 和 误差 9 ; 
美国 的 医疗 信息 系统 中 ,13. 6% 一 81% 的 关键 数据 不 完整 或 陈旧 " 。 国 际 著名 的 科技 咨 
询 机 构 Gartner 的 调查 结果 显示 ,全 球 财 富 1000 强 企业 中 ,超过 25% 的 企业 信息 系统 中 存 
在 数据 错误 5 。 

而 数据 可 用 性 问题 及 其 所 导致 的 知识 和 决策 错误 则 带 来 巨大 的 经 济 损失 。 在 医疗 方 
面 ,美国 由 于 数据 错误 引发 的 医疗 事故 每 年 导致 的 患者 死亡 人 数 高 达 98000 44 EL EU? , 在 
工业 方面 ,错误 和 陈旧 的 数据 每 年 给 美国 的 工业 企业 造成 约 6110 亿美 元 的 损失 中。 在 商 
业 方 面 ,美国 的 零售 业 中 ,每 年 仅 错误 标价 这 一 种 数据 可 用 性 问题 的 诱因 就 导致 了 25 亿美 
元 的 损失 ”5 。 在 金融 方面 , 仅 在 2006 年 ,在 美国 的 银行 业 中 ,由 于 数据 不 一 致 而 导致 的 信 
用 卡 欺诈 失察 就 造成 48 亿美 元 的 损失 "3 。 在 数据 仓库 开发 过 程 中 ,30% 一 80% 的 开发 时 
间 和 开发 预算 花费 在 清理 数据 错误 方面 。 数 据 可 用 性 问题 给 每 个 企业 增加 的 平均 成 本 
是 产值 的 10% ~20%" 。 

以 上 数据 表明 ,数据 真 伪 难 辨 是 大 数据 应 用 的 最 大 挑战 。 因 此 ,大 数据 对 其 数据 可 用 性 
的 保障 提出 了 迫切 需求 。 关 于 数据 可 用 性 ,有 很 多 度量 指标 ,文献 L[167] 列 出 了 20 个 数据 可 
用 性 指标 ; 文献 [168] 归 纳 了 40 个 数据 可 用 性 指标 ; 文献 L[169] 则 提取 了 5 个 实际 可 行 的 度 
量 指标 , 即 数据 一 致 性 、 数 据 精 确 性 、 数 据 完整 性 .数据 时 效 性 与 实体 同一 性 。 

对 数据 真 伪 的 辨识 还 有 待 进一步 的 研究 。 

3.“ 不 可 算 改 ”特征 与 “被 遗忘 权 ” 的 冲突 

区 块 链 技术 被 认为 是 下 一 代 互 联网 的 核心 技术 ,可 以 帮助 解决 很 多 数据 安全 与 隐私 保 
护 问 题 。 不 过 ,与 所 有 其 他 技术 一 样 , 它 也 是 一 柄 双 刃 剑 。 它 具有 “不 可 算 改 "的 特征 ,可 以 
有 效 地 漳 源 并 实现 不 可 抵赖 ,但 同时 也 带 来 了 数据 “被 遗忘 权 ” 问 题 。 因 为 数据 一 旦 上 链 ,将 
永久 不 可 删除 与 修改 ,那么 数据 也 将 永久 不 可 遗忘 。 

个 人 信息 的 不 可 遗忘 将 带 来 隐私 安全 问题 ,而 在 现实 金融 应 用 中 ,数据 修改 与 交易 撤销 
都 是 常见 的 操作 ,而 区 块 链 的 “不 可 算 改 ”特征 却 使 这 样 习以为常 的 操作 变 得 困难 。 

4. 密 态 计算 的 效率 问题 

为 了 保障 大 数据 安全 ,数据 以 密 态 存储 。 为 了 实现 大 数据 的 价值 ,需要 对 这 些 密 态 数据 
进行 分 析 处 理 。 而 无 论 是 同 态 加 密 技 术 还 是 安全 多 方 计算 ,都 存在 诸多 问题 ,其 中 效率 问题 
最 为 突出 。 大 数据 的 数据 体 量 大 ,对 其 明文 进行 分 析 处 理 已 经 非常 耗 时 ,而 对 其 密 文 的 处 理 
在 目前 来 说 还 未 达到 实用 的 阶段 。 

同 态 加 密 技术 采用 的 加 密 方 法 和 公 钥 加 密 方法 一 样 ,需要 执行 大 量 复 杂 的 指数 运算 ,大 
大 降低 了 数据 的 处 理 效率 ,因此 目前 的 同 态 加 密 技术 还 不 支持 对 海量 数据 的 快速 处 理 。 

最 近 , 微 软 公司 将 人 工 智 能 技术 引入 到 同 态 加 密 技 术 中 ,提出 训练 加 密 数 据 的 模型 系统 
CryotoNetsD5 ,可 以 利用 人 工 前 馈 神 经 网 络 模型 对 同 态 加 密 算 法 处 理 后 的 密 文 数据 进行 训 
练 , 而 后 就 可 以 使 用 人 工 前 馈 神 经 网 络 对 提交 的 密 文 进行 预测 分 析 。 这 是 一 种 新 的 结合 
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工 智能 提高 密 态 数据 处 理 效率 的 思路 。 

同 态 加 密 技术 和 安全 多 方 计算 将 是 实现 大 数据 共享 与 隐私 保护 的 核心 技术 ,而 当前 最 
重要 的 问题 是 使 其 计算 效率 能 达到 实用 的 水 平 。 

此 外 ,如 何在 保证 数据 隐私 的 前 提 下 ,进一步 提高 隐私 保护 后 的 数据 效用 , 即 如 何平 衡 
数据 隐私 与 效用 ? 而 因为 差分 隐私 可 以 实现 定量 的 评估 ,其 在 各 个 应 用 领域 的 发 展 有 待 进 
一 步 的 研究 。 

以 上 间 题 为 未 来 发 展 方向 指明 了 道路 ,所 有 有 待 解 决 的 问题 都 是 未 来 需要 重点 研究 并 
解决 的 问题 。 


9.6 本 章 小 结 


本 章 主要 介绍 大 数据 时 代 的 数据 存储 安全 。 首 先 从 大 数据 的 概念 .应 用 价值 到 大 数据 
带 来 的 数据 存储 挑战 说 起 ,分 析 大 数据 环境 下 云 存 储 安全 问题 。 为 了 保障 数据 安全 ,数据 以 
密 态 存储 ,因此 重点 对 密 态 计算 、 安 全 多 方 计 算 以 及 隐私 保护 技术 进行 了 阐述 。 然 后 介绍 了 
基于 NoSQL 与 区 块 链 的 大 数据 云 存储 系统 ,两 者 都 是 云 计 算 与 云 存 储 时 代 的 最 新 技术 ,也 
是 解决 大 数据 存储 的 核心 技术 。 最 后 指出 当前 大 数据 仍然 存在 的 问题 以 及 未 来 发 展 方向 。 
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